機能 #15
Updated by 寛正 鴨川 about 7 years ago
ページ内のリンクを辿ってクロールする際に、クロール対象のドメイン以外のページを対象から除外する。
バッチ単位での許可するドメインの制御であれば簡単に可能な想定。
起点のURLでの厳密な制御を行うには調査が必要。
## 対応内容
Scrapy標準で有効になているOffsiteMiddlewareの機能を利用するために、Spiderのコンストラクタで開始点のURLの取得、許可するドメインの設定を行うようにした。
OffsiteMiddleware: https://docs.scrapy.org/en/1.6/topics/spider-middleware.html?highlight=offsite#module-scrapy.spidermiddlewares.offsite
起点のURLでの厳密な制御はOffsiteMiddlewareを使う場合に比べて実装量が多くなると判断したため実装していない。
バッチ単位での許可するドメインの制御であれば簡単に可能な想定。
起点のURLでの厳密な制御を行うには調査が必要。
## 対応内容
Scrapy標準で有効になているOffsiteMiddlewareの機能を利用するために、Spiderのコンストラクタで開始点のURLの取得、許可するドメインの設定を行うようにした。
OffsiteMiddleware: https://docs.scrapy.org/en/1.6/topics/spider-middleware.html?highlight=offsite#module-scrapy.spidermiddlewares.offsite
起点のURLでの厳密な制御はOffsiteMiddlewareを使う場合に比べて実装量が多くなると判断したため実装していない。