アマゾンの情報をデータ化するスクレイピングという技術をしっていますか?

Webデータを簡単に取得する方法を知っていますか?

僕も全然知らなかったのですが、スクレイピングという技術があります。

スクレイピングとは

binary-1327498_640

このスクレイピングとはウェブ上から情報を抽出する技術のことです。例えばあるデータの情報を取得したいが、今までは一個一個をコピペしてデータを抽出していたのが、スクレイピングを行うことで、簡単にデータを抽出することができるのです。

今まで一個一個のデータを抽出していた時間が短くすることができ、尚且つ簡単にデータを集めることができるので、様々なことにデータを利用することができるようになります。

アマゾンでスクレイピングを使ってみると

アマゾンでスクレイピングを使ってみると簡単にデータ化することができます。

例えばアマゾンで以下のページがあったとすれば、これを一個ずつデータ化するのはかなり手間がかかると思います。

キャプチャ

これを簡単にデータ化するためにスクレイピングをしましょう。

少し前まではスクレイピングするのはプログラミングをかじっている必要がありましたが、今は簡単にすることができます。

僕が使っているスクレイピングは超簡単。

使っているスクレイピング方法は後から紹介します。

ちなみに上のアマゾンのウェブページをスクレイピングしてみるとこんな感じになります。

キャプチャ

アマゾン以外でもできます。

他のページでは

このブログのトップページはこれです。

キャプチャ

これをスクレイピングしてみるとこんな感じにしてくれます。

キャプチャ

トップページは5つの記事しか出てこないため、今回の結果はすぐにでてきました。

もっとデータ量があるページをスクレイピングしてみると、どうなるでしょう?

次はもっと情報量のあるTAKEWARIという世界のアマゾンの価格差を教えてくれるページをスクレイピングしてみましょう。

キャプチャ

はっきり言って時間がかなりかかるかと思いましたが、結果はすぐに出てきました。

こんな感じです。

キャプチャ

これもデータ化することに成功しました。

データ量が多かったので、スクリーンショットでは全部が入りきらなかったです。

スクレイピングするには

スクレイピングするにはスクリプトを書いて構築するのですが、普通の人にはスクリプトとか言われても意味がわからないと思います。

ですが、僕が使っている方法は超簡単でWebサイト上でできます。

使っているのは「import.io」というサイトです。

これは簡単でスクレイピングしたいサイトのURLを入れればいいだけです。

それだけで、Webサイトがデータ化できそうなところを自動で判断してデータ化してくれるので超簡単です。

import.io

まずはこのサイトにアクセスしましょう。

キャプチャ

黄色のところにスクレイピングしたいサイトのURLをいれましょう。

そして「Try it out」をクリックするとデータ化してくれます。このサイトのいいところはデータ化したデータはエクセルファイルでダウンロードできます。

最初はFacebookかメールアドレスの登録が必要になりますが、Facebookでログインしてみれば最初の一回だけで大丈夫です。

URLを入れてスクレイピングするとこのような画面になります。

キャプチャ

上部にピンク色で「Download CSV」というのがあります。

ここをクリックしましょう。

そうするとこのような画面になります。

キャプチャ

更にダウンロードがありますので、クリックしましょう。するとエクセルファイルでダウンロードできます。

キャプチャ

ダウンロードしたファイルは加工もできますので、使い勝手がいいと思います。

 

コメント