2011-02-08 47 views
0

它如何自動掃描所有可用頁面?網絡掃描軟件的原理是什麼?

我能想到的一種方法是從主頁遞歸地掃描它。

但它無法掃描出後端CMS。

那麼這些掃描工具如何工作呢?

+1

http://en.wikipedia.org/wiki/Web_crawler – 2011-02-08 06:55:04

回答

1

愚蠢的網絡爬蟲:

開始通過創建一個數組來存儲鏈接,並把一個URL中有你自己。創建第二個空數組來存儲訪問的URL。現在開始一個執行以下操作的程序。

  1. 讀取和刪除第一條連接陣列
  2. 下載網頁在那個URL
  3. 解析HTML的鏈接標籤,添加發現連接陣列
  4. 所有鏈接的網頁URL添加到訪問網址陣列
  5. 轉到1

如果您認爲在網絡上的每一頁可達按照隨機鏈接(可能是數十億)的一些數,那麼只需重複步驟1到4最終將導致下載整個網絡。由於網絡實際上並不是完全連接的圖形,因此您必須從不同的點開始流程才能最終到達每個頁面。

+0

這就是我上面提到的遞歸方式,但它將無法抓取永不鏈接的頁面。 – jxu 2011-02-08 06:59:36