Q

網絡掃描軟件的原理是什麼？

network-scan

2011-02-08 47 views 0 likes

0

它如何自動掃描所有可用頁面？網絡掃描軟件的原理是什麼？

我能想到的一種方法是從主頁遞歸地掃描它。

但它無法掃描出後端CMS。

那麼這些掃描工具如何工作呢？

2011-02-08 jxu

+1

http://en.wikipedia.org/wiki/Web_crawler – 2011-02-08 06:55:04

A

回答

1

愚蠢的網絡爬蟲：

開始通過創建一個數組來存儲鏈接，並把一個URL中有你自己。創建第二個空數組來存儲訪問的URL。現在開始一個執行以下操作的程序。

讀取和刪除第一條連接陣列
下載網頁在那個URL
解析HTML的鏈接標籤，添加發現連接陣列
所有鏈接的網頁URL添加到訪問網址陣列
轉到1

如果您認爲在網絡上的每一頁可達按照隨機鏈接（可能是數十億）的一些數，那麼只需重複步驟1到4最終將導致下載整個網絡。由於網絡實際上並不是完全連接的圖形，因此您必須從不同的點開始流程才能最終到達每個頁面。

2011-02-08 06:58:17

+0

這就是我上面提到的遞歸方式，但它將無法抓取永不鏈接的頁面。 – jxu 2011-02-08 06:59:36

相關問題