一個網絡蜘蛛，捕捉動態網頁的一些方法或想法？

有很多網絡蜘蛛，但他們只是趕上HTML格式的互聯網。我想要一個網絡蜘蛛，捕捉動態網頁的一些方法或想法，並且可以執行javascript，並且我可以從dom樹中獲取信息。一個網絡蜘蛛，捕捉動態網頁的一些方法或想法？

2011-03-01 island205

你的問題不是很清楚。請嘗試清楚您的問題或問題。另外，運行快速拼寫檢查可能是一個好主意（例如，「動態」？） – 2011-03-01 07:15:17

你越想讓你的蜘蛛表現得像一個真正的瀏覽器，你就需要一個真正的瀏覽器;所以，我建議從Crowbar這樣的無頭瀏覽器開始。從它的描述：

[Crowbar的]的目的是允許運行JavaScript刮板的DOM自動化網站抓取，但避免所有的語法規範化問題。

2011-03-01 07:15:37

如果你熟悉Java，你可以嘗試以HTTP單位http://httpunit.sourceforge.net/ HttpUnit的非常直觀，易於使用。它是爲Web應用程序單元測試而設計的，但它可以成爲非常強大的網絡爬蟲工具。它已經集成了JavaScript的引擎。它還捆綁了許多有用的庫。

2011-07-30 21:35:01 svlada

回答