【無料】おすすめWebスクレイピングツール4選 webからデータ抽出

web上から、データ収集を簡単にしてくれるツール。それが、Webスクレイピングツールです。

以前に、Webスクレイピングについては、解説しました。

スクレイピングで解決!データ収集を簡単、ミスなく自動に行うというワザ

AI、RPAが進んでいる世の中で、最近ではWebスクレイピングによるデータ収集、データ抽出は、進歩してきています。

なんと、無料でもWebスクレイピングできるツールがでてきているんですよね。

そこで、今回は、無料で使えて、人気のあるWebスクレイピングツールを4つご紹介します。Octoparse(オクトパス)というツールにいたっては、実際に、使ってみて、簡単だな~と印象もうけています!!

悪用してはいけませんよ。

無料ではじめられる!Webスクレイピングツール4選

今回は、とっておき、Webスクレイピングで、無料で使える4サービスをご紹介します。

Webクローラー Octoparse(オクトパス)

スクレイピング & Webクローラーツール
Octoparse(オクトパス)公式サイト
https://www.octoparse.jp/

Octoparse(オクトパス)は無料で使えるWebスクレイピングツールです。

Octoparse(オクトパス)は評判もいいみたいですね。

コーディングなしに、必要なデータを収集するスクレイピングが、サーバーサイドで実行できるようになる。タイマーやIPローテーションやクッキー削除といった機能も実装されている。

引用:ITREVIEW
https://www.itreview.jp/products/octoparse/reviews

ノンプログラマー向けのWebスクレイピングツールという告知もされています。

基本的に、Octoparse(オクトパス)は、さまざまなWebサイトから、いろいろなデータを抽出できます。

実際に、私が、Octoparse(オクトパス)を使って作ったのが、

食べログのサイトで、

渋谷駅で、中華で、食べログ評価3.5以上のレストランの一覧データです。

料金を1つ1つ見ていくのが大変なので、作ってみました(笑)

Octoparse(オクトパス)で取得したデータは、Exel、CSVフォーマットで出力できます。また、HTMLにもできます。

Octoparse(オクトパス)だと、ページ送りのあるwebサービスでも、簡単にデータを取得できます。

食べログなどは、まさに、1ページの中での情報は、限られたレストランだけです。しかし、ちゃんと、複数のページから、データをとってきてくれます。

さらに面白いのは、IPの自動ローテーションも可能なので、取得先のwebサービスから、IPアクセスをもとに拒否されることもなくなります。

クリックとドラッグで、簡単に作れるWebスクレイピングサービス。

twitterでも、こんなかんじででています。

フリーソフトです!Cyotek WebCopy

Cyotek WebCopy公式サイト
https://www.cyotek.com/cyotek-webcopy

Cyotek WebCopyは、ネット上のWebサイトのコンテンツをハードディスクへと保存できるWebスクレイピングツール。

Cyotek WebCopyの利用シーンは、

  1. 自分のサイトのリンク切れチェック
  2. 自分のサイトのバックアップ
  3. オフラインでwebサイトを見る

といったものがメインになりますね。

フリーソフトなので、窓の杜などからも無料でダウンロードすることができます。.NET Frameworkが必要なので、あらかじめDLしておきましょう。

窓の杜の .NET Framework のDLリンク
https://forest.watch.impress.co.jp/library/software/dotnetf/

ただ、JavaScriptに弱いようで、JavaScriptによって、リンクが調整されていたりすると、Webサイトのコンテンツ全てを拾ってこれないようです。

ただCyotek WebCopyは、機能が面白いんですよね。

  • 正規表現にマッチするURLのみをダウンロード
  • PDFのみコンテンツとしてダウンロード

なども可能です。

Cyotek WebCopyは、英語のソフトなので、

使い方に迷ったら、これを見るのもいいかもです!!

YAHOO知恵袋で、ブログのDL方法について記載もされています。

https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12212196452

無料スクレイピングOK Import.io

Import.io公式サイト
https://www.import.io/

Import.ioは、体験版で無料トライアルが可能です。

基本的には、Import.ioでできることは、

  • データと画像の自動抽出
  • コーディング不要
  • スケジューリングでのデータ取得

毎週、毎日、毎時で、スケジュールを組んでデータ抽出もOKって、すごいですよね!!

Import.ioは、クラウドで使えるツールなので、DLやインストールがいりません。

Import.ioには、有料版もあります。

webサイトのURLを貼り付ければ、データが一覧で取得され始めるのも、使い勝手いいところですね。

ページの情報を自動判別してくれるんです。

料金の一覧とか、商品名とか、商品写真とか。

非常に便利です。

英語メインですが、機能豊富なParsehub

Parsehub公式サイト
https://www.parsehub.com/

Parsehubは、DLして使うWebスクレイピングツールです。

ParseHubは、機能が豊富なんです。

動的ななサイト情報はもちろん、カレンダー情報、検索結果、検索一覧、掲示板、掲示板のコメント、ログイン認証先のデータ抽出もできます。

ParseHubは、Javascriptでもデータ抽出の処理ができるので、最強ですね。

その分、ParseHubは、大規模なデータ抽出には、取得先webサイトへの負荷をかけます。

気をつけて利用してくださいね。

まとめ:Webスクレイピングツールも無料になってきている時代

Webスクレイピングツールは、データを取得するのに、実に、簡単にできるようになるツールです。

Webスクレイピングツールがあれば、

競合他社の料金表チェック

も、あっという間にできます。

また、ECサイトが勝手に安売り、なんてことも、簡単に検知できます。

Webスクレイピングツールがあれば、テレアポのリスト作成なんかも簡単ですね。

参考までに、以下のサイトも掲載しておきます。

スクレイピング事例4選 | スクレイピングの活用事例をご紹介
https://note.com/1234543210/n/n621578ec8553

ただ、webスクレイピングは、相手のwebサービスにも負荷をかけます。

常識の範囲で、そして、法律的観点から、正しい使い方をしましょう。

2019年 BtoBマーケティング オウンドメディアの運営費シミュレーション

2019年 BtoBマーケティング オウンドメディアの運営費シミュレーションしてみた