我正在使用scrapy從網站上刮取有關書籍的評論。到目前爲止,我已經制作了一個抓取工具,並通過自己的網址作爲起始網址來刮掉一本書的評論,甚至在從頁面的源代碼中找到它之後,我甚至不得不給出有關該書的評論標籤。它工作的螞蟻。但問題是,直到現在我手動完成的工作,我希望它自動完成。即,我希望某種方式讓抓取工具能夠在網站上找到圖書的頁面並刪減其評論。我從goodreads中提取評論,並沒有提供統一的url方法,甚至不同書籍的標籤也不同。另外我不想使用Api。我想自己做所有的工作。任何幫助,將不勝感激。評論刮沒有使用Api
0
A
回答
0
HtmlAgilityPack幫我解析和閱讀的Xpath的評論。它的工作:)
0
看來,那CrawlSpider可以滿足您的需求。 可以啓動如下:
- 指定履帶
start_urls = ['https://www.goodreads.com']
開始網址列表。 要確定網址的書籍,你可以創建以下
Rule
:rules = ( Rule(SgmlLinkExtractor(allow=(r'book/show/.+',)), callback='parse_comments'), )
相關問題
- 1. 如何刮評論與使用BeautifulSoup
- 2. 谷歌播放評論刮刮變化
- 3. 如何刮取IMDB評論
- 4. 評論標準API - GroupBy - 沒有生成
- 5. 加載facebook評論框沒有評論
- 6. facebook沒有評論
- 7. 評論時間沒有使用linux makefile
- 8. checkins /最近沒有返回評論,甚至沒有評論數
- 9. 評論使用Facebook圖形API api
- 10. Yammer API評論
- 11. 如何使用YouTube .NET API投票/評論評論?
- 12. 如何使用Facebook Graph API來評論評論?
- 13. 如何使用評論框評論框使用評論系統
- 14. 像文章沒有評論
- 15. 評論沒有工作
- 16. Doxygen沒有收到評論
- 17. Java Youtube API評級評論
- 18. php討論區沒有發表評論
- 19. 通過Graph API獲取Facebook評論,但沒有來自社交插件的隱藏評論Facebook評論框
- 20. 在PHP中的HTML評論刮
- 21. 在評論之前只颳去元素
- 22. 關於刮評論網站的問題
- 23. Scrapy - 刮評論跳過<br>
- 24. 評論轉換被PDF文件使用Ghostscript的,但沒有評論
- 25. Android Java谷歌地點GET(拉)評論JSONException對評論沒有任何評論
- 26. Facebook的評論API
- 27. 評論到URL API
- 28. Google Place API評論
- 29. API獲取評論
- 30. 使用Facebook api訪問「評論」表
謝謝。我會試試這個。但是有沒有一些評論或評論提取機制? – Delta
不是真的與默認的scrapy框架,因爲要遍歷審查頁面,你需要執行JavaScript。但是你可以在JavaScript中集成JavaScript,檢查這個[repository](https://github.com/scrapinghub/scrapyjs)。 – user2016508