如何構建一個像谷歌一樣強大的爬蟲？

-4

我想構建一個爬行程序，它可以在幾分鐘內更新數十萬個鏈接。是否有任何成熟的方法來做調度？是否需要分佈式系統？限制性能的最大障礙是什麼？ Thx。如何構建一個像谷歌一樣強大的爬蟲？

2016-06-25 makeapp

對於Python，你可以與Frontera的流逝Scrapinghub

他們，使Scrapy同一人。

還有一個Apache Nutch，這是一個很老的項目。 http://nutch.apache.org/

2016-06-25 20:53:43 MetalloyD

MetalloyD，你能告訴我scrapy集羣，distributed-frontera有什麼區別嗎？我很困惑，各有什麼優點和缺點？ – makeapp

除非您願意降低速度，否則所需的處理和內存量需要分佈式處理。請記住，您將處理數十億個鏈接和TB文本和圖像

2016-06-25 08:35:20 KMarto

您需要一個分佈式抓取工具，但不要重新發明輪子，請使用Apache Nutch。它完全是爲此目的而建造的，已經成熟和穩定，並被廣泛的社區用來應對大規模爬行。

2016-06-25 20:49:59

回答