我有一百萬個URL列表要抓取。我使用這個列表作爲nutch種子,並使用Nutch的基本抓取命令來獲取它們。但是,我發現Nutch會自動提取不在列表中的URL。我將爬網參數設置爲-depth 1 -topN 1000000.但它不起作用。有誰知道如何做到這一點?使用Nutch抓取指定的URL列表
0
A
回答
3
將此屬性設置爲nutch-site.xml
。 (默認情況下它的真實,因此增加了對外連結到crawldb)
<property>
<name>db.update.additions.allowed</name>
<value>false</value>
<description>If true, updatedb will add newly discovered URLs, if false
only already existing URLs in the CrawlDb will be updated and no new
URLs will be added.
</description>
</property>
2
- 刪除抓取和URL目錄(如果之前創建)
- 創建和更新種子文件(其中網址列每列1URL)
- 重新啓動抓取過程
命令
nutch crawl urllist -dir crawl -depth 3 -topN 1000000
- urllist - 其中目錄種子文件(URL列表)存在
- 爬行 - 目錄名
即使問題仍然存在,請刪除您Nutch的文件夾,然後重新啓動整個過程。
相關問題
- 1. 使用Nutch或Heritrix定向抓取
- 2. Nutch抓取並忽略新的Url
- 3. Nutch 2.3.1僅抓取種子URL
- 4. 使用CrawlDbReader讀取Nutch抓取數據
- 5. Nutch抓取不起作用
- 6. 如何讓Nutch爬蟲只抓取特定的URL?
- 7. Nutch的抓取命令
- 8. Nutch未能抓取特定網站
- 9. 使用Nutch的抓取特定HTML標籤
- 10. Nutch的抓取使用正則表達式
- 11. apache nutch不抓取網站
- 12. 從nutch重點抓取
- 13. Nutch 1.4和Solr 3.6 - Nutch沒有抓取301/302重定向
- 14. Nutch 1.2 - 爲什麼不能用查詢字符串抓取url?
- 15. 抓取URL使用PHP
- 16. 如何在nutch 1.3中重新抓取不同的預定抓取網站?
- 17. 如何讓Apache Nutch的抓取永遠
- 18. 阿帕奇Nutch的抓取問題
- 19. 如何抓取Nutch中的圖像?
- 20. 如何讓Nutch的爬蟲抓取
- 21. 如何包括在Nutch的抓取
- 22. 使用nutch抓取子頁面時獲取父標題
- 23. 如何讓Nutch通過* url抓取*而不存儲它?
- 24. 如何查看由使用solr的nutch抓取的數據?
- 25. 如何使用python從列表中抓取url
- 26. 如何使用Apache Nutch抓取有空間的網址?
- 27. 使用nutch抓取頁面的後處理
- 28. 如何使用Nutch抓取和解析精確的數據?
- 29. 使用Nutch如何抓取uisng ajax網頁的動態內容?
- 30. Nutch抓取 - 在每個抓取影響中刪除分段
我不想Nutch的從種子抓取對外連結,只是網址我給種子。 – Xiao 2012-02-06 17:49:02