Web爬蟲會抓取Web並創建Web數據庫嗎?它只會創建一個可搜索的Web索引?如果假設它創建了一個索引,誰將準確地收集網頁的數據並將其存儲在數據庫中?網絡爬蟲的工作是什麼?
回答
雖然這個問題有點含糊讓我放一些詞來澄清。
Crawler發出一個URL的http請求並分析該網頁的信息。舉例來說,它使得一個http req。 http://www.example.com它檢索頁面的內容。
一旦它獲得了分析它的頁面內容。現在H1,H2,Pages的重要性基於這些標籤,它可以瞭解網頁的全部內容。
標識稱爲關鍵字和總結網頁內容的重要/突出的話,並把它在它的索引
而且它得到的超鏈接,從將在其下一個跳躍用於這些網站,網頁的其他網站並進一步進行。這是一個永無止境的故事。
所以無論何時一個關鍵字被問到,它都會從關鍵字數據庫中看到並顯示在結果中。
有時,爬網程序本身會將網頁副本轉儲到名爲緩存數據庫的特殊數據庫中,以便它可以用作原始數據的備用副本。
1.在第3點中,您提到了總結頁面內容並將其放入其索引。關鍵字和頁面之間的關係是如何維護的? 2.我們如何知道特定關鍵字僅來自該頁面?它是如何實際執行的? 3.索引中包含的是什麼? – user1702195 2010-08-17 14:41:16
關鍵字和其他元標記可以映射到URL,也可以將源自該站點的所有URL歸入一個稱爲域名的實體下, – nepsdotin 2010-08-25 17:02:25
- 1. 網絡爬蟲
- 2. 網絡爬蟲腳本不工作的
- 3. 什麼讓我的網絡爬蟲慢?
- 4. 網絡爬蟲遇到什麼危險?
- 5. C++網絡爬蟲
- 6. PHP網絡爬蟲
- 7. Python網絡爬蟲
- 8. java網絡爬蟲
- 9. 網絡爬蟲類
- 10. 網絡爬蟲的功能
- 11. 網絡爬蟲的Java
- 12. 簡單的網絡爬蟲
- 13. Python中的網絡爬蟲
- 14. 自動網絡爬蟲
- 15. 網絡爬蟲,反饋?
- 16. 遞歸網絡爬蟲perl
- 17. 需要網絡爬蟲
- 18. 網絡爬蟲文本雲
- 19. 硒與python網絡爬蟲
- 20. 網絡爬蟲從Android Market
- 21. 網絡爬蟲應用
- 22. 網絡爬蟲不打印
- 23. 網絡爬蟲提取
- 24. 製作網絡爬蟲/蜘蛛
- 25. 網絡爬蟲是否存儲Cookie?
- 26. 是一個網絡爬蟲更合適?
- 27. 網絡爬蟲不div的嵌套工作
- 28. 存儲URL邊界並分發網絡爬蟲的工作?
- 29. 正則表達式不與網絡爬蟲工作
- 30. 針對windows的增量爬網支持的網絡爬蟲
如果網絡爬蟲可以抓取網絡,網絡爬蟲會抓取多少網頁 – 2010-08-17 02:50:12
您的問題沒有提及您正在談論的網絡爬蟲。因此它對於計算器來說太模糊了。 – thomasrutter 2010-08-17 02:52:29
這個問題與PHP或Python有什麼關係?你想寫一個嗎?是否存在您想要破解的現有內容? – 2010-08-17 07:10:47