搜索引擎沒有爬行？

有沒有一種方法可以收集網頁內容，以便在搜索引擎中使用它，而無需通過網頁爬行階段？任何網絡爬行的替代？搜索引擎沒有爬行？

謝謝

2010-11-23 wassimans

不，收集您必須收集的內容...收集內容。 :-)

2010-11-23 08:29:16

不夠公平。謝謝：-） – wassimans 2010-11-23 08:33:41

直接或間接地，您必須抓取網絡才能獲取內容。

2010-11-23 08:31:13

是的（和排序的否）。

您可以下載現有的數據從不同的網站（維基百科，計算器等）轉儲和構造一個部分索引的方式。它顯然不會成爲互聯網的完整索引。

您也可以使用元搜索來構建您的搜索引擎。這是您使用其他搜索引擎的API並將其搜索結果用作索引基礎的地方。例子包括citosearch和opensearch。 duckduckgo使用yahoo's boss api（現在yahoo使用bing ...）作爲其搜索引擎的一部分。

您也可以使用實時流媒體API而不是抓取網頁。以datasift爲例。您可以巧妙地使用更多資源並避免/最小化爬網。

2011-02-01 20:11:54 mt3

如果您想要更新頁面上的最新內容，則可以使用類似pubsubhubbub協議的協議來獲取訂閱鏈接的推送通知。或使用使用相同協議的付費服務，如superfeedr。

2012-06-06 11:29:26

那麼，如果你不想抓取，你可以按照類似維基的方法，用戶可以提交網站鏈接（標題，描述和標籤）。所以可以建立一個協作鏈接集合。

爲避免發送垃圾郵件，可能會涉及+/-系統，將有用的網站或標籤投給無用的網站或標籤。

爲了避免垃圾郵件發送者羣衆投票SERP，您可以根據用戶信譽對投票進行加權。

通過提交有用的網站可以獲得用戶的信譽。或者以某種方式跟蹤使用模式。

並考慮其他濫用模式。

嗯，你知道了，我想。

隨着垃圾郵件發送者逐漸發現傳統搜索引擎的弱點（請參閱Google bomb，內容刮板網站等），基於社區的方法可能會奏效。但是，如果從cold start效應的嚴重打擊，而當社區小的系統很容易受到虐待和毒藥...

至少維基百科和堆棧交換不是垃圾郵件沒用的水平那麼遠，

2013-06-10 17:31:27 Calmarius

回答