4
A
回答
1
nutch有內聯網抓取可用。你可以閱讀細節here
4
從Nutch的維基:
我如何索引我的本地文件系統?
http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6
1)爬網urlfilter.txt需要改變,以允許文件:網址,而不是下面的HTTP:的,否則要麼無法索引任何東西,或將您的磁盤跳下到網站。 更改此行:
-^(file|ftp|mailto|https):
to this:
-^(http|ftp|mailto|https):
2)抓取-urlfilter.txt可以在底部有規則拒絕一些網址。如果它有這個片段,它可能確定:
# accept anything else +.*
3)我改變了我的nutch.xml包括以下內容:
<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/>
相關問題
- 1. Nutch的插件系統如何工作?
- 2. 如何擴展Nutch文章抓取
- 3. Nutch抓取不起作用
- 4. 操作系統如何控制文件?
- 5. 抓取本地文件系統 - 如何測試
- 6. 抓取版本控制系統
- 7. nutch - 如何抓取特定的文件類型?
- 8. 如何讓Apache Nutch的抓取永遠
- 9. 如何抓取Nutch中的圖像?
- 10. 如何讓Nutch的爬蟲抓取
- 11. 如何包括在Nutch的抓取
- 12. 如何在Nutch中只抓取HTML?
- 13. 如何使nutch抓取文件和子文件夾 - 它只抓取文件夾的索引
- 14. apache nutch不抓取網站
- 15. 從nutch重點抓取
- 16. Nutch的抓取命令
- 17. 如何製作「插件」評論系統
- 18. 如何將文件從本地文件系統複製到HDFS文件系統?
- 19. 使用CrawlDbReader讀取Nutch抓取數據
- 20. 如何獲取系統文件夾?
- 21. 如何提取MPFS文件系統?
- 22. 春季啓動 - 在獲取請求中從文件系統抓取文件
- 23. 製作一個新的文件系統
- 24. 二進制文件和操作系統
- 25. 原型製作文件系統
- 26. Apache文件系統如何工作?
- 27. Windows文件系統如何工作?
- 28. 在nutch抓取/分段文件夾中查看數據
- 29. 如何使用Nutch顯示本地文件抓取的完成百分比?
- 30. 如何在nutch 1.3中重新抓取不同的預定抓取網站?
正則表達式,urlfilter.txt需要改變 – gmlvsv 2013-05-31 07:25:04