2016-06-25 44 views

回答

0

除非您願意降低速度,否則所需的處理和內存量需要分佈式處理。請記住,您將處理數十億個鏈接和TB文本​​和圖像

1

您需要一個分佈式抓取工具,但不要重新發明輪子,請使用Apache Nutch。它完全是爲此目的而建造的,已經成熟和穩定,並被廣泛的社區用來應對大規模爬行。