4
我一直在閱讀如何實現一個履帶。 我知道我們從訪問URL列表(種子列表)開始。 訪問所有這些URL並將訪問頁面中的所有鏈接添加到列表(邊界)中。 那麼我應該添加多少種子列表?我是否只需要添加儘可能多的網址,並希望他們能讓我的網址與www上的網址一樣多,並且確實能夠確保我可以在其中獲得所有其他網址? 還是有一些約定來做到這一點?我的意思是...像谷歌這樣的搜索引擎做什麼?爬蟲種子列表包含什麼?
我一直在閱讀如何實現一個履帶。 我知道我們從訪問URL列表(種子列表)開始。 訪問所有這些URL並將訪問頁面中的所有鏈接添加到列表(邊界)中。 那麼我應該添加多少種子列表?我是否只需要添加儘可能多的網址,並希望他們能讓我的網址與www上的網址一樣多,並且確實能夠確保我可以在其中獲得所有其他網址? 還是有一些約定來做到這一點?我的意思是...像谷歌這樣的搜索引擎做什麼?爬蟲種子列表包含什麼?
基本上,他們使用它們之間的連接(鏈接)製作了大量網站。搜索引擎知道的網站越多越好。這裏唯一的問題是能夠使這個列表有用。也就是說,網站可能性的大列表並不意味着搜索結果很好,因此您必須能夠分辨每個網頁中的重要內容。
但是根據你所擁有的信息處理能力,沒有必要停下來。
這不是確保你會到達每一個網址,但它基本上是抓取網絡的唯一實用方法。