3
A
回答
5
不,收集您必須收集的內容...收集內容。 :-)
1
直接或間接地,您必須抓取網絡才能獲取內容。
3
是的(和排序的否)。
:)
您可以下載現有的數據從不同的網站(維基百科,計算器等)轉儲和構造一個部分索引的方式。它顯然不會成爲互聯網的完整索引。
您也可以使用元搜索來構建您的搜索引擎。這是您使用其他搜索引擎的API並將其搜索結果用作索引基礎的地方。例子包括citosearch和opensearch。 duckduckgo使用yahoo's boss api(現在yahoo使用bing ...)作爲其搜索引擎的一部分。
您也可以使用實時流媒體API而不是抓取網頁。以datasift爲例。您可以巧妙地使用更多資源並避免/最小化爬網。
2
如果您想要更新頁面上的最新內容,則可以使用類似pubsubhubbub協議的協議來獲取訂閱鏈接的推送通知。 或使用使用相同協議的付費服務,如superfeedr。
0
那麼,如果你不想抓取,你可以按照類似維基的方法,用戶可以提交網站鏈接(標題,描述和標籤)。所以可以建立一個協作鏈接集合。
爲避免發送垃圾郵件,可能會涉及+/-系統,將有用的網站或標籤投給無用的網站或標籤。
爲了避免垃圾郵件發送者羣衆投票SERP,您可以根據用戶信譽對投票進行加權。
通過提交有用的網站可以獲得用戶的信譽。或者以某種方式跟蹤使用模式。
並考慮其他濫用模式。
嗯,你知道了,我想。
隨着垃圾郵件發送者逐漸發現傳統搜索引擎的弱點(請參閱Google bomb,內容刮板網站等),基於社區的方法可能會奏效。但是,如果從cold start效應的嚴重打擊,而當社區小的系統很容易受到虐待和毒藥...
至少維基百科和堆棧交換不是垃圾郵件沒用的水平那麼遠,
相關問題
- 1. 識別搜索引擎爬蟲
- 2. 搜索引擎在哪裏開始爬行?
- 3. 爲什麼搜索引擎爬蟲不能運行JavaScript?
- 4. 爲垂直搜索引擎開發爬行器和刮板
- 5. 搜索引擎
- 6. 搜索爬行「Bot」?
- 7. 使用AJAX搜索引擎在Chrome中搜索搜索引擎
- 8. 如何停止所有搜索引擎,機器人爬行一些網址
- 9. 爲什麼沒有搜索引擎可以搜索〜符號?
- 10. MediaWiki,格式化沒有搜索引擎的搜索結果?
- 11. JQGrid&搜索引擎索引
- 12. 如果搜索引擎沒有html和body根元素,搜索引擎會索引一個html片段嗎?
- 13. 使用PHP檢測爬網(搜索引擎訪問)
- 14. 搜索引擎的典型爬取深度
- 15. 向搜索引擎爬蟲(SEO)公開Solr的策略
- 16. AngularJS/AJAX應用程序和搜索引擎爬蟲
- 17. 爬蟲/搜索引擎如何遍歷網絡?
- 18. ASP.NET搜索引擎
- 19. php搜索引擎
- 20. mysql搜索引擎
- 21. Ember搜索引擎
- 22. php搜索引擎
- 23. PHP搜索引擎
- 24. 元搜索引擎
- 25. Filshts搜索引擎
- 26. Lucene.net搜索引擎
- 27. joomla搜索引擎
- 28. SQL搜索引擎
- 29. Mysql搜索引擎
- 30. Django:搜索引擎
不夠公平。謝謝 :-) – wassimans 2010-11-23 08:33:41