2014-05-02 33 views
0

我正在使用scrapy從網站上刮取有關書籍的評論。到目前爲止,我已經制作了一個抓取工具,並通過自己的網址作爲起始網址來刮掉一本書的評論,甚至在從頁面的源代碼中找到它之後,我甚至不得不給出有關該書的評論標籤。它工作的螞蟻。但問題是,直到現在我手動完成的工作,我希望它自動完成。即,我希望某種方式讓抓取工具能夠在網站上找到圖書的頁面並刪減其評論。我從goodreads中提取評論,並沒有提供統一的url方法,甚至不同書籍的標籤也不同。另外我不想使用Api。我想自己做所有的工作。任何幫助,將不勝感激。評論刮沒有使用Api

回答

0

HtmlAgilityPack幫我解析和閱讀的Xpath的評論。它的工作:)

0

看來,那CrawlSpider可以滿足您的需求。 可以啓動如下:

  • 指定履帶start_urls = ['https://www.goodreads.com']開始網址列表。
  • 要確定網址的書籍,你可以創建以下Rule

    rules = (
         Rule(SgmlLinkExtractor(allow=(r'book/show/.+',)), callback='parse_comments'), 
         ) 
    
+0

謝謝。我會試試這個。但是有沒有一些評論或評論提取機制? – Delta

+0

不是真的與默認的scrapy框架,因爲要遍歷審查頁面,你需要執行JavaScript。但是你可以在JavaScript中集成JavaScript,檢查這個[repository](https://github.com/scrapinghub/scrapyjs)。 – user2016508