Torrentz.eu等網站如何收集其內容？

我想知道一些搜索網站如何獲取他們的內容。我在標題中使用了'torrentz.eu'的例子，因爲它有來自多個來源的內容。我想知道這個系統的背後，他們是否「簡單地」解析他們支持的所有網站，然後顯示內容？或者使用一些網絡服務？或兩者？Torrentz.eu等網站如何收集其內容？

2012-09-13 N3sh

基本上爬行是：鑑於網站的一組初始S，嘗試探索的鏈接瞭解它（查找transitive closure ）。

某些網站也使用focused crawlers，如果他們嘗試從第一位僅索引網絡的子集。

P.S.某些網站既不做，也使用Google Custom Search API/Yahoo Boss/Bing Deveoper API提供的服務（當然是收費），並使用它們的索引，而不是自己創建一個。

P.P.S這提供了一個理論方法如何能做到這一點，我不知道如何提到網站實際工作。

（1）由於時間問題，通常沒有找到傳遞閉包，但是有足夠接近它的東西。

2012-09-13 12:14:27 amit

回答