我正在嘗試製作搜索引擎。我想知道如何在開始的網址在我的數據庫中編制索引?例如,谷歌如何獲取網站的網址以進行抓取?
如何獲取我自己的搜索引擎的初始索引數據?
回答
您可以從現有的索引開始,並使用它來構建自己的索引。 dmoz是一個人類可編輯索引:http://www.dmoz.org/
好吧如何查詢dmoz以獲取初始數據?他們有些API或什麼? – Despicable 2014-10-07 21:20:00
如果你的搜索引擎有一個爬蟲,你可以開始指向它在dmoz.org;) – 2014-10-07 21:24:29
謝謝:)你知道一些基於JavaScript的抓取工具,我可以加入我的搜索引擎嗎? – Despicable 2014-10-07 21:28:30
- 1. 使自己的軌道搜索引擎
- 2. 搜索引擎優化 - 獲取搜索引擎索引301頁面
- 3. 如何在我自己的搜索引擎中使用Chrome即時搜索?
- 4. JQGrid&搜索引擎索引
- 5. 搜索私人數據庫的自定義搜索引擎
- 6. 如何從Sphinx搜索引擎獲取搜索詞位置?
- 7. 如何從搜索引擎獲取搜索結果?
- 8. 如何獲得未被搜索引擎索引的域名
- 9. 在搜索引擎中自動搜索
- 10. 我如何獲得谷歌搜索引擎只搜索圖片
- 11. Drupal搜索引擎不索引我的自定義節點!
- 12. 如何使搜索引擎到您自己的網站
- 13. 搜索引擎索引 - 任何替代PhantomJs快照的搜索引擎優化?
- 14. 搜索引擎
- 15. 在我自己的視圖中使用Django Admin搜索引擎
- 16. 使用AJAX搜索引擎在Chrome中搜索搜索引擎
- 17. 自定義搜索引擎
- 18. 搜索引擎中的倒排索引
- 19. 過濾的搜索引擎數據
- 20. 搜索引擎的數據庫
- 21. 搜索引擎的數據結構?
- 22. 如何爲我的自定義PHP搜索引擎將頁面索引到MySQL
- 23. 如何抓取搜索引擎結果
- 24. 搜索引擎如何抓取網站?
- 25. 搜索引擎如何抓取Javascript?
- 26. 從搜索引擎獲取結果
- 27. 使用搜索引擎獲取URL
- 28. 帶搜索引擎的PHP搜索引擎
- 29. 嵌套分組/搜索引擎的搜索引擎
- 30. 如何從引用搜索引擎獲取查詢信息
谷歌飢腸轆轆地搶了他們可以找到的每一個最後的URL,無論它來自哪裏。有一個階段,SE在進行數字戰爭,爲了「贏得」營銷目的,用大量的URL數量誇大了他們的數據庫。他們從哪裏得到它們?到處。例如,許多人會在谷歌搜索框中輸入網址,將其添加到蜘蛛隊列... – MrYellow 2014-10-07 22:47:10