1
我注意到,rule
的CrawlSpider
在每個無葉頁面上提取網址。
僅噹噹前頁面滿足某些條件(例如:url匹配正則表達式)時,纔可以啓用rule
?如何製作CrawlSpider上下文相關的規則?
我有兩個頁面:
-------------------Page A-------------------
Page URL: http://www.site.com/pattern-match.html
--------------------------------------------
- [link](http://should-extract-this)
- [link](http://should-extract-this)
- [link](http://should-extract-this)
--------------------------------------------
--------------------Page B--------------------
Page URL: http://www.site.com/pattern-not-match.html
-----------------------------------------------
- [link](http://should-not-extract-this)
- [link](http://should-not-extract-this)
- [link](http://should-not-extract-this)
-----------------------------------------------
所以,規則應該只從網頁A提取URL。怎麼做?謝謝!
的問題是不明確的。你在尋找一個特定的規則模式嗎? 'Rule(SgmlLinkExtractor(allow =('pattern-match',),deny =('pattern-not-match',)))' – agstudy
@agstudy我正在尋找一個簡潔的方式來製作Rule規則支持上下文SgmlLinkExtractor提取網址的當前頁面)。 – kev