request、BeautifulSoup、Scrapyを使ったスクレイピングに関する情報が充実しているが、Seleniumに関しては軽く触れる程度。
どちらかというとスクレイピングよりもクローリングに比重が大きい。
本書の意義として大きいのは、情報の網羅性だと思う。
クローリング、スクレイピング、取得したデータのCSV出力から、保存先のDBの導入、DBへのデータ保存、PandasやElasticSearchiを用いてのデータ分析、さらにはVagrant、VirtualBox、Ubuntuを用いての仮想サーバ環境を用意してクローリング・スクレイピング用サーバー用意するなど、スクレイピング・クローリングのために必要な「周辺」情報までも幅広く網羅している。
2019年発売の本で、今この感想を書いている2023年までには4年しかたっていないが、近年技術の革新ペースがあまりに早いため、純粋に活用するのは既に難しいかもしれない。が、腐らない知識として必要な情報が満載なので手元に置いておいて損はないだろう。
スクレイピングが流行ったからだろうか、スクレイピングをしたい多くのサービス、例えばメルカリ、Google、Twitterなど大手のサービスはスクレイピングを禁止してしまった。
巻末のあとがきにあるように、自社で使っている各種アプリや分散した情報を集約するのには大いに役に立つだろうし、コロナ情報を集約してリアルタイムで公開していた某Webサイトのように社会的に大きな意義を持つ使い方も可能なので、消えることはないだろう。
また同時に、グレーゾーンやブラックな範疇を含め、金儲けのために情報を集めて一攫千金を狙う輩は多く、ランサーズのような業務委託マッチングサービスでは毎日スクレイピング案件をよく見る。
Pythonブームによって誰でもPythonを使えるようになった今、スクレイピングスキルはかなり陳腐化してしまっていて、
そういったスクレイピングプログラム作成の案件はかなり安く買いたたかれている。
なので、仕事としてよりも、趣味や、自社における業務効率化として活用するのが今後の主流になっていくように思う。