我正在尋找一個PHP網絡爬蟲收集所有鏈接到一個大型網站,並告訴我,如果鏈接被破壞。PHP網絡爬蟲
到目前爲止,我已經嘗試在這裏修改一個例子。 My question about the code我也試過抓phpDig,但網站已關閉。任何建議都會很棒,我應該如何繼續下去會很棒。
編輯
問題不鏈接的抓取規模的問題,我不知道如果我修改劇本足以搶什麼可能是網址十萬,我嘗試設置搜索鏈接深度爲4,爬蟲通過瀏覽器超時。其他人提到了關於殺死進程的一些事情,以避免服務器超載,請問有人能詳細說明這個問題。
我正在尋找一個PHP網絡爬蟲收集所有鏈接到一個大型網站,並告訴我,如果鏈接被破壞。PHP網絡爬蟲
到目前爲止,我已經嘗試在這裏修改一個例子。 My question about the code我也試過抓phpDig,但網站已關閉。任何建議都會很棒,我應該如何繼續下去會很棒。
編輯
問題不鏈接的抓取規模的問題,我不知道如果我修改劇本足以搶什麼可能是網址十萬,我嘗試設置搜索鏈接深度爲4,爬蟲通過瀏覽器超時。其他人提到了關於殺死進程的一些事情,以避免服務器超載,請問有人能詳細說明這個問題。
不是一個現成的解決方案,但簡單的HTML Dom解析器是我最喜歡的dom解析器之一。 讓我們使用CSS選擇器查找文檔上的節點,以便您可以輕鬆找到<a href="">
的。 通過這些超鏈接,您可以構建自己的抓取工具並檢查頁面是否仍然可用。
建議第三方替代[SimpleHtmlDom](http://simplehtmldom.sourceforge.net/),它實際上使用[DOM](http:// php。 net/manual/en/book.dom.php)而不是字符串分析:[phpQuery](http://code.google.com/p/phpquery/),[Zend_Dom](http://framework.zend.com /manual/en/zend.dom.html),[QueryPath](http://querypath.org/)和[FluentDom](http://www.fluentdom.org)。 – Gordon 2011-04-12 08:58:34
*(相關)* [最佳方法來解析HTML(http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662) – Gordon 2011-04-12 08:57:19
有十幾個在線工具做到這一點,你真的需要建立自己的? – 2011-04-12 08:57:34
http://stackoverflow.com/search?q=crawler+php – Gordon 2011-04-12 08:58:07