- ダウンロード商品ダウンロード版¥ 500
- 物販商品(自宅から発送)あんしんBOOTHパックで配送予定物理本+ダウンロード¥ 890
2021年6月19日(土)に開催された、第5回 技術書同人誌博覧会で頒布する、PythonとScrapyを使ったWebスクレイピング実践編〜あのサイトをスクレイピングするまで!〜の本です。 2021年7月10日(土)から開催する技術書典11でも頒布します。
概要
この書籍ではWebスクレイピングを、PythonとScrapyフレームワークを利用して行うことをソースコードとともに解説します。 Webサイトには多くの情報があり、ブラウザの利用だけでも取得できますが、Webサイトを閲覧するという行為が能動的であり手間と時間を使うことになります。 普通のサイトからWebスクレイピングをはじめ、少しづつ難易度を高めていく実践編となります。 最後には、あのサイトをWebスクレイピングしていきます。 下のサイトをスクレイピングしていきます。 ・Yahooニュース ・国土交通省の賃貸住宅管理業者検索 ・Qiita ・Scrapbox ・技術書典オンラインマーケット
目次
前書き 情報を取得する意味 諸注意 metaタグに関する注意 使われないnoodpとnoydir robots.txtに関する注意 過剰なアクセスに関する注意 免責事項 第1章 環境構築 1.1 macOSでのPython 1.2 Windows10でのPython 1.3 環境を作る 1.4 Docker 第2章 最初のスクレイピング 2.1 Scrapy の構成について 2.2 プロジェクトの作成 2.3 アイテム設定 2.4 Scrapyの設定 2.5 Spider作成 2.5.1 解説 2.6 クローラーの実行 2.7 ソースコードについて 第3章 POST メソッドがあるサイトでスクレイピング 3.1 プロジェクトの作成 3.2 アイテム設定 3.3 Spider作成 3.3.1 解説 3.4 クローラーの実行 3.5 ソースコードについて 第4章 データベースを使用する 4.1 ORMの導入 4.2 データベースの準備 4.3 プロジェクトの作成 4.4 アイテム設定 4.5 Pipelineの設定 4.6 データベースの設定 4.7 テーブル情報の作成 4.8 Pipeline作成 4.9 Spider作成 4.9.1 解説 4.10 クローラーの実行 4.11 データベースの確認 4.12 ソースコードについて 第5章 動的画面のスクレイピング 5.1 JavaScriptレンダリングの導入 5.2 Splashの準備 5.3 プロジェクトの作成 5.4 アイテム設定 5.5 JavaScriptレンダリング用の設定 5.6 Spider作成 5.6.1 解説 5.7 クローラーの実行 5.8 ソースコードについて 第6章 Lazy loading 画面のスクレイピング 6.1 前準備 6.2 プロジェクトの作成 6.3 アイテム設定 6.4 Spider作成 6.4.1 解説 6.5 クローラーの実行 6.6 ソースコードについて あとがき 謝辞 著者紹介 著作紹介