2010-11-23 80 views
3

有沒有一種方法可以收集網頁內容,以便在搜索引擎中使用它,而無需通過網頁爬行階段?任何網絡爬行的替代?搜索引擎沒有爬行?

謝謝

回答

5

不,收集您必須收集的內容...收集內容。 :-)

+1

不夠公平。謝謝 :-) – wassimans 2010-11-23 08:33:41

1

直接或間接地,您必須抓取網絡才能獲取內容。

3

是的(和排序的否)。

:)

您可以下載現有的數據從不同的網站(維基百科,計算器等)轉儲和構造一個部分索引的方式。它顯然不會成爲互聯網的完整索引。

您也可以使用元搜索來構建您的搜索引擎。這是您使用其他搜索引擎的API並將其搜索結果用作索引基礎的地方。例子包括citosearchopensearch。 duckduckgo使用yahoo's boss api(現在yahoo使用bing ...)作爲其搜索引擎的一部分。

您也可以使用實時流媒體API而不是抓取網頁。以datasift爲例。您可以巧妙地使用更多資源並避免/最小化爬網。

2

如果您想要更新頁面上的最新內容,則可以使用類似pubsubhubbub協議的協議來獲取訂閱鏈接的推送通知。 或使用使用相同協議的付費服務,如superfeedr

0

那麼,如果你不想抓取,你可以按照類似維基的方法,用戶可以提交網站鏈接(標題,描述和標籤)。所以可以建立一個協作鏈接集合。

爲避免發送垃圾郵件,可能會涉及+/-系統,將有用的網站或標籤投給無用的網站或標籤。

爲了避免垃圾郵件發送者羣衆投票SERP,您可以根據用戶信譽對投票進行加權。

通過提交有用的網站可以獲得用戶的信譽。或者以某種方式跟蹤使用模式。

並考慮其他濫用模式。

嗯,你知道了,我想。

隨着垃圾郵件發送者逐漸發現傳統搜索引擎的弱點(請參閱Google bomb,內容刮板網站等),基於社區的方法可能會奏效。但是,如果從cold start效應的嚴重打擊,而當社區小的系統很容易受到虐待和毒藥...

至少維基百科和堆棧交換不是垃圾郵件沒用的水平那麼遠,

PS:http://xkcd.com/810/