2010-08-17 80 views
0

Web爬蟲會抓取Web並創建Web數據庫嗎?它只會創建一個可搜索的Web索引?如果假設它創建了一個索引,誰將準確地收集網頁的數據並將其存儲在數據庫中?網絡爬蟲的工作是什麼?

+10

如果網絡爬蟲可以抓取網絡,網絡爬蟲會抓取多少網頁 – 2010-08-17 02:50:12

+0

您的問題沒有提及您正在談論的網絡爬蟲。因此它對於計算器來說太模糊了。 – thomasrutter 2010-08-17 02:52:29

+0

這個問題與PHP或Python有什麼關係?你想寫一個嗎?是否存在您想要破解的現有內容? – 2010-08-17 07:10:47

回答

2

雖然這個問題有點含糊讓我放一些詞來澄清。

  1. Crawler發出一個URL的http請求並分析該網頁的信息。舉例來說,它使得一個http req。 http://www.example.com它檢索頁面的內容。

  2. 一旦它獲得了分析它的頁面內容。現在H1,H2,Pages的重要性基於這些標籤,它可以瞭解網頁的全部內容。

  3. 標識稱爲關鍵字和總結網頁內容的重要/突出的話,並把它在它的索引

  4. 而且它得到的超鏈接,從將在其下一個跳躍用於這些網站,網頁的其他網站並進一步進行。這是一個永無止境的故事。

  5. 所以無論何時一個關鍵字被問到,它都會從關鍵字數據庫中看到並顯示在結果中。

  6. 有時,爬網程序本身會將網頁副本轉儲到名爲緩存數據庫的特殊數據庫中,以便它可以用作原始數據的備用副本。

+0

1.在第3點中,您提到了總結頁面內容並將其放入其索引。關鍵字和頁面之間的關係是如何維護的? 2.我們如何知道特定關鍵字僅來自該頁面?它是如何實際執行的? 3.索引中包含的是什麼? – user1702195 2010-08-17 14:41:16

+0

關鍵字和其他元標記可以映射到URL,也可以將源自該站點的所有URL歸入一個稱爲域名的實體下, – nepsdotin 2010-08-25 17:02:25