我想知道是否有人試圖用 SgmlLinkExtractor/CrawlSpider提取/關注RSS項鍊接。我無法得到它的工作...Scrapy - 關注RSS鏈接
我使用以下規則:
rules = ( Rule(SgmlLinkExtractor(tags=('link',), attrs=False), follow=True, callback='parse_article'), )
(記住具有RSS鏈接位於鏈接標籤)。
我不知道如何告訴SgmlLinkExtractor提取的 文本()的鏈接,而不是搜索屬性...
任何幫助是值得歡迎的, 在此先感謝
請你解釋一下使用CrawlSpider規則和回調實現自定義鏈接提取的區別?我一直在努力尋找差異,並且在多次閱讀文檔之後...仍然沒有任何結果。由於過去使用規則的不好經歷,我會採用你的方法,但我只想知道原因。 T.I.A – romeroqj 2011-07-06 03:23:19
現在可以使用['''XMLFeedSpider'''](https://scrapy.readthedocs.org/en/latest/topics/spiders.html?highlight=rule#xmlfeedspider-example)。 – opyate 2013-04-19 12:15:52