2013-02-26 18 views
0

朋友們,我已經在Java中實現了多線程Web爬網程序。爲了使它更高效,我想將它轉換成分佈式架構,即3臺機器。據我所搜索的主從架構是最好的。任何人都可以提供一些洞察,哪些是最好的架構,以及如何在Java中實現它?在Java的分佈式體系結構中實現Web爬網程序

+0

你可能想看看[twitter風暴](http://storm-project.net/)。 – ericson 2013-02-26 16:12:23

回答

0

您可以爲每個正在爬網的域計算哈希碼,並使用此哈希來確定哪個節點應該爬網該域。這樣,所有節點都可以並行工作,無需太多交互。

您還需要一些代碼來合併抓取完成後或者定期抓取的結果。也許最好是將一些生成的檔案從節點和進程拷貝到中心位置。

虛擬機雲看起來像一個很好的部署平臺,因爲爬網不是CPU或內存密集型的。