2014-03-03 93 views
0

我正在開發一個項目,在該項目中,我們使用分佈式搜尋器抓取並下載通過網絡內容找到的主機。目前我們有幾百萬臺主機,但我們意識到這不是世界上最便宜的東西。爬行需要時間和計算能力等等。因此,我們不是自己來做這件事,而是考慮是否可以利用外部服務來獲取URL。下載互聯網上的所有網絡主機

我的問題是,那裏有服務提供大量的網絡主機列表和/或只是大量的不斷更新的URL列表(我們可以解析以獲取主機)?我已經看過的東西:

1)搜索引擎API--通常所有這些搜索引擎API都將(可以理解)不僅讓你下載他們的整個索引。

2)DMOZ和Alexa排名前100萬 - 儘管它們對於種子列表來說是一個很好的開端,但它們沒有足夠的網站來滿足我們所期望的目標。

任何人有任何線索?你將如何解決這個問題?

回答

3

也許CommonCrawl有幫助。通用抓取是一個巨大的開放式抓取網站數據庫。

+0

正是我在找的東西。謝謝! – acnutch