0
A
回答
1
愚蠢的網絡爬蟲:
開始通過創建一個數組來存儲鏈接,並把一個URL中有你自己。創建第二個空數組來存儲訪問的URL。現在開始一個執行以下操作的程序。
- 讀取和刪除第一條連接陣列
- 下載網頁在那個URL
- 解析HTML的鏈接標籤,添加發現連接陣列
- 所有鏈接的網頁URL添加到訪問網址陣列
- 轉到1
如果您認爲在網絡上的每一頁可達按照隨機鏈接(可能是數十億)的一些數,那麼只需重複步驟1到4最終將導致下載整個網絡。由於網絡實際上並不是完全連接的圖形,因此您必須從不同的點開始流程才能最終到達每個頁面。
+0
這就是我上面提到的遞歸方式,但它將無法抓取永不鏈接的頁面。 – jxu 2011-02-08 06:59:36
相關問題
- 1. 網絡掃描中「偏差」的含義是什麼?
- 2. Android掃描WiFi網絡
- 3. 掃描網絡Mac SDK
- 4. 掃描C類網絡Python
- 5. 掃描網絡鏈接
- 6. 柯達i1120網絡掃描
- 7. 安卓掃描WiFi網絡
- 8. 什麼是用於掃描可用的Wi-Fi網絡的iOS API
- 9. 網絡管理軟件 - 它真的需要什麼?
- 10. (理光打印機)掃描至網絡共享文件夾
- 11. 什麼是PNO的區別掃描和WLAN預設掃描?
- 12. Seq Scan在桌上掃描的原因是什麼?
- 13. 如何使用Fortify安全掃描軟件掃描JS文件
- 14. Raspberry Pi的Android和iOS掃描網絡?
- 15. 掃描YARA規則的整個網絡
- 16. 掃描iPhone SDK上的Wifi網絡
- 17. 什麼是視頻最好的網絡服務器軟件?
- 18. 什麼是VGA編程中的「掃描」?
- 19. 什麼是MongoDB中的集合掃描?
- 20. 什麼是掃描:Java中的塊?
- 21. Android網絡中每秒掃描WiFi網絡的問題
- 22. 用於netware的Backup Exec 9.1(掛起並掃描網絡代理)
- 23. Python掃描網絡IP地址和mac
- 24. 以AP模式掃描網絡(hostapd)
- 25. 特定MAC地址掃描網絡 - Android
- 26. Java網絡服務掃描器
- 27. 如何在該區域掃描網絡
- 28. Android:主動掃描WiFi網絡
- 29. Android:掃描Wifi網絡+可選列表
- 30. 網絡釣魚掃描程序幫助
http://en.wikipedia.org/wiki/Web_crawler – 2011-02-08 06:55:04