網絡爬蟲的工作是什麼？

Web爬蟲會抓取Web並創建Web數據庫嗎？它只會創建一個可搜索的Web索引？如果假設它創建了一個索引，誰將準確地收集網頁的數據並將其存儲在數據庫中？網絡爬蟲的工作是什麼？

+10

如果網絡爬蟲可以抓取網絡，網絡爬蟲會抓取多少網頁 – 2010-08-17 02:50:12

您的問題沒有提及您正在談論的網絡爬蟲。因此它對於計算器來說太模糊了。 – thomasrutter 2010-08-17 02:52:29

這個問題與PHP或Python有什麼關係？你想寫一個嗎？是否存在您想要破解的現有內容？ – 2010-08-17 07:10:47

雖然這個問題有點含糊讓我放一些詞來澄清。

Crawler發出一個URL的http請求並分析該網頁的信息。舉例來說，它使得一個http req。 http://www.example.com它檢索頁面的內容。
一旦它獲得了分析它的頁面內容。現在H1，H2，Pages的重要性基於這些標籤，它可以瞭解網頁的全部內容。
標識稱爲關鍵字和總結網頁內容的重要/突出的話，並把它在它的索引
而且它得到的超鏈接，從將在其下一個跳躍用於這些網站，網頁的其他網站並進一步進行。這是一個永無止境的故事。
所以無論何時一個關鍵字被問到，它都會從關鍵字數據庫中看到並顯示在結果中。
有時，爬網程序本身會將網頁副本轉儲到名爲緩存數據庫的特殊數據庫中，以便它可以用作原始數據的備用副本。

2010-08-17 03:11:51 nepsdotin

1.在第3點中，您提到了總結頁面內容並將其放入其索引。關鍵字和頁面之間的關係是如何維護的？ 2.我們如何知道特定關鍵字僅來自該頁面？它是如何實際執行的？ 3.索引中包含的是什麼？ – user1702195 2010-08-17 14:41:16

關鍵字和其他元標記可以映射到URL，也可以將源自該站點的所有URL歸入一個稱爲域名的實體下， – nepsdotin 2010-08-25 17:02:25

回答