2012-10-28 57 views

回答

3

DNS解析是網絡爬蟲中一個衆所周知的瓶頸。由於域名服務的分佈式性質,DNS解析可能需要多次請求並在互聯網上進行往返, 需要幾秒甚至更長的時間。馬上,這會使我們的目標是每秒提取幾百個文檔。

DNS解析還有另一個重要的困難;標準庫中的查找 實現(很可能由任何開發爬蟲的 使用)通常是同步的。這意味着一旦 向域名服務發出請求, 上的其他搜尋器線程將阻止該節點,直到第一個請求完成。至 迴避這一點,大多數網絡爬蟲實施他們自己的DNS解析器作爲搜尋器的一個組成部分 。

http://nlp.stanford.edu/IR-book/html/htmledition/dns-resolution-1.html

相關問題