PHP網絡爬蟲

我正在尋找一個PHP網絡爬蟲收集所有鏈接到一個大型網站，並告訴我，如果鏈接被破壞。PHP網絡爬蟲

到目前爲止，我已經嘗試在這裏修改一個例子。 My question about the code我也試過抓phpDig，但網站已關閉。任何建議都會很棒，我應該如何繼續下去會很棒。

編輯

問題不鏈接的抓取規模的問題，我不知道如果我修改劇本足以搶什麼可能是網址十萬，我嘗試設置搜索鏈接深度爲4，爬蟲通過瀏覽器超時。其他人提到了關於殺死進程的一些事情，以避免服務器超載，請問有人能詳細說明這個問題。

2011-04-12 dbomb101

*（相關）* [最佳方法來解析HTML（http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662） – Gordon 2011-04-12 08:57:19

有十幾個在線工具做到這一點，你真的需要建立自己的？ – 2011-04-12 08:57:34

http://stackoverflow.com/search?q=crawler+php – Gordon 2011-04-12 08:58:07

不是一個現成的解決方案，但簡單的HTML Dom解析器是我最喜歡的dom解析器之一。讓我們使用CSS選擇器查找文檔上的節點，以便您可以輕鬆找到<a href="">的。通過這些超鏈接，您可以構建自己的抓取工具並檢查頁面是否仍然可用。

You can find it here。

來源

2011-04-12 08:57:55

建議第三方替代[SimpleHtmlDom]（http://simplehtmldom.sourceforge.net/），它實際上使用[DOM]（http：// php。 net/manual/en/book.dom.php）而不是字符串分析：[phpQuery]（http://code.google.com/p/phpquery/），[Zend_Dom]（http://framework.zend.com /manual/en/zend.dom.html），[QueryPath]（http://querypath.org/）和[FluentDom]（http://www.fluentdom.org）。 – Gordon 2011-04-12 08:58:34

回答

相關問題