5
A
回答
5
我已經使用Web Harvest
幾次了,它非常適合網頁抓取。
Web-Harvest是開源Web數據 用Java編寫的抽取工具。它 提供了一種方法來收集所需的網頁並從 中提取有用的數據。爲了做到這一點,它利用已經建立的技術 和用於諸如XSLT,XQuery和 正則表達式的text/xml 操作的技術。 Web-Harvest 主要關注基於HTML/XML的web 網站,該網站仍然佔據Web內容的絕大多數 。另一方面, 可以很容易地由 自定義Java庫進行補充,以便 增強其提取功能。
另外,也可以使用工具,如JTidy
首先一個HTML文檔轉換爲XHTML,然後再進行處理您需要XPath
信息推出自己的網頁刷屏。例如,天真的XPath表達式可以從http://www.wired.com
中提取所有超鏈接,如//a[contains(@href,'wired')]/@href
。你可以在這個answer中找到一些類似問題的示例代碼。
2
'簡單'在這裏可能不是一個相關的概念。這是一項複雜的任務。我建議nutch。
相關問題
- 1. 創建一個簡單的'蜘蛛'
- 2. scrapy:蜘蛛中的小蜘蛛?
- 3. 有一個蜘蛛使用從另一個蜘蛛返回的物品?
- 4. Scrapy找不到蜘蛛
- 5. 蜘蛛網站的工具並尋找400或500錯誤?
- 6. 如何比較每個Scrapy蜘蛛項目與另一個Scrapy蜘蛛項目?
- 7. Scrapy從主蜘蛛運行多個蜘蛛?
- 8. Scrapy DOMAIN_NAME的蜘蛛
- 9. Python的scrapy蜘蛛
- 10. 道場蜘蛛圖與一個系列
- 11. 塊蜘蛛機器人除了一個
- 12. 如何在Python中編寫簡單的蜘蛛程序?
- 13. 簡單的蜘蛛與BS4神祕地雙打每頁
- 14. 從手動jQuery代碼創建蜘蛛最簡單的方法?
- 15. Web蜘蛛與Wget的蜘蛛有什麼不同?
- 16. 如何喂蜘蛛蜘蛛爬行內的鏈接?
- 17. 尋找一個簡單而靈活的Java Swing LayoutManager
- 18. 尋找Java註釋的簡單配方
- 19. 尋找簡單的3D Java庫
- 20. 在蜘蛛情節
- 21. 製作蜘蛛restarable
- 22. asp.net(網絡蜘蛛)
- 23. 佈局像蜘蛛
- 24. Scrapy與Scrapy蜘蛛
- 25. 在使用scrapy製作的網絡爬蟲中調用另一個蜘蛛的一個蜘蛛
- 26. Scrapy錯誤:未找到蜘蛛
- 27. 錯誤:無法找到蜘蛛:教程
- 28. Scrapy找不到蜘蛛錯誤
- 29. 附表scrapyd蜘蛛和蜘蛛通過配置選項
- 30. 使用Scrapy創建蜘蛛,蜘蛛生成錯誤
感謝此資源。我能夠成功地適應它。但是,如果網頁響應結果爲500,則在元素內容中找到輸出「無效XML字符(Unicode:0x0)」的刮板失敗(例如http://www.allure.com/magazine/flipbook)的文件。「有關此錯誤消息的任何想法? – rs79 2011-02-22 20:52:42