2012-09-13 21 views
3

我想知道一些搜索網站如何獲取他們的內容。 我在標題中使用了'torrentz.eu'的例子,因爲它有來自多個來源的內容。 我想知道這個系統的背後,他們是否「簡單地」解析他們支持的所有網站,然後顯示內容?或者使用一些網絡服務?或兩者?Torrentz.eu等網站如何收集其內容?

回答

7

您在尋找Information RetrievalCrawling方面。

基本上爬行是:鑑於網站的一組初始S,嘗試探索的鏈接瞭解它(查找transitive closure )。

某些網站也使用focused crawlers,如果他們嘗試從第一位僅索引網絡的子集。

P.S.某些網站既不做,也使用Google Custom Search API/Yahoo Boss/Bing Deveoper API提供的服務(當然是收費),並使用它們的索引,而不是自己創建一個。

P.P.S這提供了一個理論方法如何能做到這一點,我不知道如何提到網站實際工作。


(1)由於時間問題,通常沒有找到傳遞閉包,但是有足夠接近它的東西。