2012-11-22 28 views
0

我想刮幾個網站和很多建議Scrapy。這是基於Python的,因爲我對PHP非常熟悉,所以尋找替代品。PHPCrawl可以用於抓取網站和Scrapy有什麼不同嗎?

我有一臺履帶式翻譯記憶卡PHPCrawl。我不確定它是否只是一個爬行器,或者它是否也會提供刮削設備。如果它可以用於抓取 - 它會支持XPath或正則表達式。

它如何與Python中的Scrapy進行比較。

請建議我哪個最適合用來抓取網站。

感謝

回答

0

PHPCrawl是一個純粹的履帶,它提供了發現頁面和它們的源代碼給用戶「因爲他們是」(連同一些背景信息)。因此它速度很快,它不能使用多個進程,並有大量的選項來配置它。

不能說太多關於Scrapy,因爲我到目前爲止沒有使用它。

+0

謝謝,但我需要知道的是,PHPCrawl可以用於刮擦? –

0

是的,當然。 但正如我所說,PHPCrawl提供頁面源,並且你必須提取你想從中提取的數據。

+0

如果它提供頁面源,我可以使用DOMObject並獲取詳細信息。但這也可以通過其他方式使用file_get_contents()來實現。如果phpcrawl只提供頁面源代碼並且沒有內置方法來使用xpaths,那麼對於phpcrawl是有用的... –

+0

這是一個web爬蟲,file_get_contents不是;)如果你只是想獲得一個頁面的源,那麼你會與file_get_contents()很好。 – xuh