最快的多線程網絡爬蟲體系結構

應該有一個邊界對象 - 保存一組訪問並等待抓取URL。應該有一些線程負責抓取網頁。也會有某種控制器對象來創建爬行線程。最快的多線程網絡爬蟲體系結構

我不知道什麼架構會更快，更容易擴展。如何儘可能少的同步來分配責任，並且最小化檢查當前URL是否已經被訪問的次數。

控制器對象是否應該負責爲工作線程提供新的URL - 這意味着工作線程需要抓取所有給定的URL，然後睡眠時間不確定。控制器將解釋這個線程，所以爬行線程應該處理InterruptedException（它在Java中的代價是多少 - 似乎異常處理不是很快）。或者，也許控制器應該只啓動線程並讓線程自行抓取邊界？

來源

2011-12-17 Damian

創建一個共享的線程安全列表，其中包含要被抓取的URL。創建一個Executor，其線程數與您希望併發運行的抓取工具數量相對應。通過引用共享列表將您的搜尋器作爲Runnables啓動，並將它們分別提交給Executor。每個爬蟲從列表中移除下一個URL並執行您需要的任何操作，循環直到列表爲空。

來源

2011-12-17 19:11:37 jtahlborn

使用哈希映射創建中央資源，該哈希映射可以將URL存儲爲上次掃描時的密鑰。使這個線程安全。然後，只需使用隊列中的鏈接生成線索，這些鏈接可以由抓取工具拾取，作爲起點。然後每個線程將繼續爬行並更新資源。資源中的線程清除過期的爬網。內存資源可以在開始時序列化，也可以在數據庫中根據您的應用需求進行分配。

您可以通過遠程服務訪問此資源以允許多臺計算機。您可以通過隔離網址將資源分散到多臺機器上。等...

來源

2011-12-17 19:34:18

你應該使用一個阻塞隊列，其中包含需要獲取的URL。在這種情況下，您可以創建多個使用者，以便在多個線程中獲取URL。如果隊列爲空，則所有收件人都將被鎖定。在這種情況下，您應該在開始時運行所有線程，並且不應在稍後控制它們。此外，您還需要在某些持久性存儲中維護已下載頁面的列表，並在添加到隊列之前進行檢查。

來源

2011-12-17 19:45:01 dbf

如果你不想重新發明輪子，爲什麼不看Apache Nutch。

來源

2011-12-17 20:07:07 Snehal