我有一個URL種子列表包含超過100000個網址。我知道,nutch不僅會抓取種子列表中的網址,還會抓取網站內部的任何網址鏈接。但是,我想知道有沒有辦法阻止這種行爲?所以只需要在種子列表中指定的網址被抓取。如何配置Nutch只抓取seeklist中的URL? (沒有爬回需要)
0
A
回答
0
3
在您的nutch-site.xml配置中,將「db.ignore.external.links」屬性設置爲true。
這將忽略任何到注入列表之外的域的URL。
相關問題
- 1. 如何讓Nutch爬蟲只抓取特定的URL?
- 2. 如何讓Nutch的爬蟲抓取
- 3. 如何在Nutch中只抓取HTML?
- 4. Nutch抓取並忽略新的Url
- 5. MongoDB的Apache nutch爬蟲沒有獲取正確的URL
- 6. 如何讓Apache Nutch的抓取永遠
- 7. Nutch的抓取命令
- 8. 如何包括在Nutch的抓取
- 9. 如何抓取Nutch中的圖像?
- 10. Nutch 2.3.1僅抓取種子URL
- 11. 需要一個像Apache Nutch那樣沒有Hadoop的開源抓取工具
- 12. Nutch 1.4和Solr 3.6 - Nutch沒有抓取301/302重定向
- 13. 如何讓apache nutch永久爬取
- 14. Nutch-Hadoop: - 我們如何只抓取網址中的更新進行重新抓取?
- 15. 爬1000元重新抓取網址在Nutch的
- 16. Nutch沒有抓取seed.txt中的所有網址
- 17. 如何配置Nutch,以避免爬行廢話日曆網頁
- 18. 獲取Nutch爬行狀態?
- 19. 使用Nutch抓取指定的URL列表
- 20. 如何只用Anemone「抓取」根URL?
- 21. 如何讓Nutch通過* url抓取*而不存儲它?
- 22. Apache Nutch重新啓動抓取
- 23. 如何擴展Nutch文章抓取
- 24. 從Nutch 1.7中排除沒有'www'的網址抓取
- 25. 如何在nutch中獲取抓取的頁面內容和相應的URL?
- 26. 如何配置Apache Nutch忽略某些url模式
- 27. 爲什麼Nutch(v2.3)只抓取種子網址,而不抓取整個網站?
- 28. 如何加快在Nutch中爬行
- 29. 如何使用apache nutch在少數主題上抓取數據?
- 30. Nutch - 不抓取,說「在深度= 1停止 - 沒有更多的URL可以抓取」