我用來創建一些爬蟲來編譯信息,當我來到一個網站我需要的信息我開始一個新的爬蟲特定的網站,大部分時間和某些時候使用shell腳本PHP 。如何最好地開發網絡爬蟲
我做的方法是使用一個簡單的for
迭代的頁面列表,wget
不要下載並sed
,tr
,awk
或其他工具來清潔頁面,抓住具體信息,我需要。
所有的過程都需要一些時間,具體取決於網站和更多的下載所有頁面。我常常步入一個AJAX網站,這使得所有事情變得複雜。我想知道是否有更好的方法來做到這一點,更快的方式,甚至一些應用程序或語言來幫助這樣的工作。
我認爲[XMLawk](http://gawkextlib.sourceforge.net/)可能是一個選擇。 – 2013-06-07 06:40:05