出典:https://import.io/

ド文系大学院生、スクレイピング勉強会に参加するの巻

14/07/2014


湯浅拓です。某弁護士と名前が同じ?と聞かれることが多々あります。違います。あの方は今どうされているのでしょう… #TBT(注1)




ところで、かなり前のことですが、6/22にWebスクレイピング勉強会(Twitterハッシュタグ#東京スクラッパー)に参加してきました。まだスクレイピングを知らない人と自分の備忘録として、今回記事を書いてみようと思った次第です。




 

Webスクレイピングとは

 

Webスクレイピングとは、WebサイトからWebページのHTMLデータを収集して、特定のデータを抽出、整形し直すことである。

Webスクレイピングを行うことで、Webページを対象として、あたかもWeb APIを利用しているかのようにデータを効率的に取得・収集することが可能になる。用途の例としては、部分的にコンテンツを取り出して携帯電話向けのコンテンツを生成したり、小見出しの一覧を生成したり、といった使い方あある。Webスクレイピングは様々な手段で実現可能であるが、PHPやPerlといったスクリプト言語を使用して行われることが多い。

なお、「スクレイピング」(scraping)とは元々「削る」や「こすり落とす」といった意味の英語である。

(IT用語辞典より)


つまり、Webサイトにある情報(データ)を抜粋(抽出)しようと。その情報(データ)を利活用しましょう!と。

具体的には、公的機関がWebサイトやPDFなどで発表している情報を、機械判読性が良い状態のデータとしてまとめることができます。例えば、選挙後の得票数情報などは「機械に優しくない」状態で公表されていることが多々あります。(もちろん改善へ向かってもいます。)その場合のデータクレンジングは大変地味な作業で根気が必要。その労力を軽減してくれることも期待されています。




スクレイピングを始める前に

ところで…
Q:Web上にあるものを勝手にスクレイピング/クローリングしたら、著作権違反にはならないんですか???

A:情報解析目的であれば合法と解釈できる!


情報解析のための複製等(第47条の7)

コンピュータ等を用いて情報解析(※)を行うことを目的とする場合には,必要と認められる限度において記録媒体に著作物を複製・翻案することができる。

 ただし,情報解析用に広く提供されているデータベースの著作物については,この制限規定は適用されない。

※情報解析とは,大量の情報から言語,音,映像等を抽出し,比較,分類等の統計的な解析を行うことをいう。

文化庁:http://www.bunka.go.jp/chosakuken/gaiyou/chosakubutsu_jiyu.html




Webスクレイピングサービス・フリーツール紹介

さて…やっとスクレイピングサービスの紹介に移りたいと思います。




1.Kimonolabs

https://www.kimonolabs.com/

・Webアプリケーション

完全にWebブラウザ上で動く。

Paginationが得意、クローリングが苦手

スケジューリングが可能




2.import io

https://import.io/

・クライアントアプリケーション

スクレイピング、クローリングはクライアントで動く。

・Paginationが苦手、クローリングが得意

・スケジューリングが出来ない

アプリケーション上で、手動で実行する必要がある。

クライアントライブラリを使えば、一応スケジューリング出来る。




3.ScraperWiki

https://scraperwiki.com/

・Python、R、Rubyといった言語で処理を書く必要がある

・無料では3つしか処理・データセットが作れない

・PDFからデータ抽出できる

・オープンデータのスクレイピングに特化した特徴もある




本質的に言いたいこと


・Webスクレイピングでなにをやりたいか(目的)がすごく重要

手段と目的どちらを先行すべきかという疑問はありがちだと思うんですが、両方とも重要。だから、どっちもやる。簡単に使えることはわかったけど、それでどーすんねん?

→ネタ集めに至極使えるので、それをどのように料理するかはジャーナリスティックな脳みその使いドコロでは?

とにかくデータを集める(蓄積する)ことだけでも重要。後々データがWebからなくなるなんてこともありますし。

また、オーディエンス目線の目的、社会還元、公共性ということにも意識を置いておく必要がある。なぜならば、最終的には「伝えないといけない」からである。


・JUST DO IT

ノンプログラマーは四の五の言わずに、やる。

でないと「わからないことがわからない」。習うより慣れろ。


・やはりプログラミングに触れるべき

自分への戒めも込めて。ジャーナリストはWeb対応ができることで道が開け、今後の活動幅が広がっていく。(モーゼ)

ニューズルームにおいて、ジャーナリストはエンジニアやアナリストなどとコミュニケーションが取れないなんて今後ありえない。


追記

・この手の勉強会の席の無くなる速さよ。。。

・そんでもって、女性がいない。。。(いや、男性的な考えが蔓延ることもそうですが、女性の思考注入ってやはり重要だと思うんですよね。)


ド文系大学院生ですので、表記がおかしいなどの箇所が多々あるかと思います。

その際は、お手数おかけしますが、ご指摘いただけると幸いです。

何卒、よろしくお願い致します。

 

注1:“Throwback Thursday”の略


アイキャッチ出典:https://import.io/


参考リンク

第1回Webスクレイピング勉強会@東京(Compass)

http://tokyoscrapper.connpass.com/event/6809/

Webスクレイピングの基礎知識(slide share)

http://www.slideshare.net/nezuQ/web-36143026

オープンデータのためのスクレイピング(slide share)

http://www.slideshare.net/itonaoyuki/ss-36155151


(ライター:ユアサ)

Pocket