『退屈なことはPythonにやらせよう』の11章は頑張りすぎないように


このエントリーをはてなブックマークに追加

ここからちょっと広告です。

広告は以上です。

3週間近くもここで使っちまったよ……

Pythonの勉強用に使っている本『退屈なことはPythonにやらせよう』ですが、11章「Webスクレイピング」のところでは、実習として出てくるものが、ことごとく教科書通りに実行できません。
エンコードが必要だったり、Webスクレイピング基本禁止だったり、例外がおおく止まることが多かったりして、本筋と違うところで悩みまります。

勉強のために工夫して悩むのは悪いことではないと思うのですが、最後のメール自動送信の演習で、思い通りにいかずいろいろ調べた挙句、「Gmailは基本的にはWebスクレイピングを禁止している。APIを使うべし」ということがわかり、あーもういいや、と思いました。

APIの使い方はまだよくわからないけど、わかったら、またこの演習に戻ってくることにします。

Webスクレイピングは、便利そうだけど、なんか地雷を踏みそうなので、いったんここまでにしとこうかな。
参考までに、書いたスクリプト一覧を置いておきます。

地図検索。教書には日本語をURLエンコードしなくてはいけないことが書かれていません。
Google検索結果をいくつか開く(途中まで) 。教書とはhtmlの内容が違って、無理やり実行しようとするとなんとなく危なそうです。
XKCDコミックをひとつずつダウンロードする。教書の通りやると、イレギュラーなページでエラーが出てプログラムが止まります。
コマンドライン電子メーラー(挫折)。GmailはWebスクレイピングでの操作非推奨。


Ads by Google

コメント

コメントは、Twitterやはてブに、以下のボタンから本記事のアドレスつきでツイート/ブクマしていただくと、上にあるzenbackのウィジェットに反映されます。
  このエントリーをはてなブックマークに追加
または同ウィジェット内のFacebookコメントでお願いしますー。

Facebookのシェアは……されても誰だかわからないのですが、シェア自体は嬉しいので、下にボタンを置かせていただきます。よろしくお願いします。