Project

General

Profile

機能 #8

Updated by 寛正 鴨川 about 7 years ago

ページ内のURLを抽出し、リンク先を再帰的にクローリングする。

h2. 実装

aタグのhref属性を抽出し、相対パスをURLに変換して新たなリクエストを投げるようにした。
全てのレスポンスに対してこの処理を実行するようにして再帰的なクローリングを実現した。

なお、訪問済みページの重複リクエストの除外、指定ドメイン以外のページへのリクエストの除外はScrapyでカバーされるため実装不要だった。

h2. MT

コーポレートページのトップページ(https://www.interprism.co.jp/)をクローリングしマニュアルテストした。

クローリングでアクセスしたページを出力し、トップページのリンクURLを出力したものと比較したところ、トップページにリンクのないページへのアクセスが確認できた。
よって再帰的クローリングが実現できていると考えられる。
また、外部ドメインのURLはアクセスしていない事を確認した。

Back