Q

爬蟲種子列表包含什麼？

2011-05-17 97 views 4 likes

4

我一直在閱讀如何實現一個履帶。我知道我們從訪問URL列表（種子列表）開始。訪問所有這些URL並將訪問頁面中的所有鏈接添加到列表（邊界）中。那麼我應該添加多少種子列表？我是否只需要添加儘可能多的網址，並希望他們能讓我的網址與www上的網址一樣多，並且確實能夠確保我可以在其中獲得所有其他網址？還是有一些約定來做到這一點？我的意思是...像谷歌這樣的搜索引擎做什麼？爬蟲種子列表包含什麼？

2011-05-17 Vanddel

A

回答

3

基本上，他們使用它們之間的連接（鏈接）製作了大量網站。搜索引擎知道的網站越多越好。這裏唯一的問題是能夠使這個列表有用。也就是說，網站可能性的大列表並不意味着搜索結果很好，因此您必須能夠分辨每個網頁中的重要內容。

但是根據你所擁有的信息處理能力，沒有必要停下來。

這不是確保你會到達每一個網址，但它基本上是抓取網絡的唯一實用方法。

2011-05-17 16:55:20 Gabriel

相關問題

1. 爲什麼是驗證爬蟲
2. 網絡爬蟲遇到什麼危險？
3. 爲什麼爬蟲不去下一頁？
4. 網絡爬蟲的工作是什麼？
5. 爲什麼scrapy爬蟲停止？
6. 什麼讓我的網絡爬蟲慢？
7. 此列表包含什麼？
8. Asp.net Request.Browser.Crawler - 動態爬蟲列表？
9. 子域vs子目錄阻止爬蟲
10. Python爬蟲 - html.fromstring