2011-03-01 58 views
0

有很多網絡蜘蛛,但他們只是趕上HTML格式的互聯網。我想要一個網絡蜘蛛,捕捉動態網頁的一些方法或想法,並且可以執行javascript,並且我可以從dom樹中獲取信息。一個網絡蜘蛛,捕捉動態網頁的一些方法或想法?

+0

你的問題不是很清楚。請嘗試清楚您的問題或問題。另外,運行快速拼寫檢查可能是一個好主意(例如,「動態」?) – 2011-03-01 07:15:17

回答

0

你越想讓你的蜘蛛表現得像一個真正的瀏覽器,你就需要一個真正的瀏覽器;所以,我建議從Crowbar這樣的無頭瀏覽器開始。從它的描述:

[Crowbar的]的目的是允許運行JavaScript刮板的DOM自動化網站抓取,但避免所有的語法規範化問題。

0

如果你熟悉Java,你可以嘗試以HTTP單位http://httpunit.sourceforge.net/ HttpUnit的非常直觀,易於使用。它是爲Web應用程序單元測試而設計的,但它可以成爲非常強大的網絡爬蟲工具。它已經集成了JavaScript的引擎。它還捆綁了許多有用的庫。