2012-02-06 39 views
0

我有一百萬個URL列表要抓取。我使用這個列表作爲nutch種子,並使用Nutch的基本抓取命令來獲取它們。但是,我發現Nutch會自動提取不在列表中的URL。我將爬網參數設置爲-depth 1 -topN 1000000.但它不起作用。有誰知道如何做到這一點?使用Nutch抓取指定的URL列表

回答

3

將此屬性設置爲nutch-site.xml。 (默認情況下它的真實,因此增加了對外連結到crawldb)

<property> 
    <name>db.update.additions.allowed</name> 
    <value>false</value> 
    <description>If true, updatedb will add newly discovered URLs, if false 
    only already existing URLs in the CrawlDb will be updated and no new 
    URLs will be added. 
    </description> 
</property> 
2
  • 刪除抓取和URL目錄(如果之前創建)
  • 創建和更新種子文件(其中網址列每列1URL)
  • 重新啓動抓取過程

命令

nutch crawl urllist -dir crawl -depth 3 -topN 1000000 
  • urllist - 其中目錄種子文件(URL列表)存在
  • 爬行 - 目錄名

即使問題仍然存在,請刪除您Nutch的文件夾,然後重新啓動整個過程。

+1

我不想Nutch的從種子抓取對外連結,只是網址我給種子。 – Xiao 2012-02-06 17:49:02