2
在我已閱讀的有關搜尋器提案的每篇論文中,我看到一個重要組件是DNS解析器。爲什麼在搜索器體系結構中必須使用DNS解析器?
我的問題是:
爲什麼有必要嗎?我們不能只向http://www.some-domain.com/提出要求嗎?
在我已閱讀的有關搜尋器提案的每篇論文中,我看到一個重要組件是DNS解析器。爲什麼在搜索器體系結構中必須使用DNS解析器?
我的問題是:
爲什麼有必要嗎?我們不能只向http://www.some-domain.com/提出要求嗎?
DNS解析是網絡爬蟲中一個衆所周知的瓶頸。由於域名服務的分佈式性質,DNS解析可能需要多次請求並在互聯網上進行往返, 需要幾秒甚至更長的時間。馬上,這會使我們的目標是每秒提取幾百個文檔。
DNS解析還有另一個重要的困難;標準庫中的查找 實現(很可能由任何開發爬蟲的 使用)通常是同步的。這意味着一旦 向域名服務發出請求, 上的其他搜尋器線程將阻止該節點,直到第一個請求完成。至 迴避這一點,大多數網絡爬蟲實施他們自己的DNS解析器作爲搜尋器的一個組成部分 。
http://nlp.stanford.edu/IR-book/html/htmledition/dns-resolution-1.html