使用Nutch抓取指定的URL列表

我有一百萬個URL列表要抓取。我使用這個列表作爲nutch種子，並使用Nutch的基本抓取命令來獲取它們。但是，我發現Nutch會自動提取不在列表中的URL。我將爬網參數設置爲-depth 1 -topN 1000000.但它不起作用。有誰知道如何做到這一點？使用Nutch抓取指定的URL列表

來源

2012-02-06 Xiao

將此屬性設置爲nutch-site.xml。（默認情況下它的真實，因此增加了對外連結到crawldb）

<property> 
    <name>db.update.additions.allowed</name> 
    <value>false</value> 
    <description>If true, updatedb will add newly discovered URLs, if false 
    only already existing URLs in the CrawlDb will be updated and no new 
    URLs will be added. 
    </description> 
</property>

來源

2012-04-03 15:54:23

刪除抓取和URL目錄（如果之前創建）
創建和更新種子文件（其中網址列每列1URL）
重新啓動抓取過程

命令

nutch crawl urllist -dir crawl -depth 3 -topN 1000000

urllist - 其中目錄種子文件（URL列表）存在
爬行 - 目錄名

即使問題仍然存在，請刪除您Nutch的文件夾，然後重新啓動整個過程。

來源

2012-02-06 05:52:22 Debaditya

我不想Nutch的從種子抓取對外連結，只是網址我給種子。 – Xiao 2012-02-06 17:49:02

使用Nutch抓取指定的URL列表

回答

相關問題