2009-06-02 93 views

回答

1

nutch有內聯網抓取可用。你可以閱讀細節here

4

從Nutch的維基:

我如何索引我的本地文件系統?

http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6

1)爬網urlfilter.txt需要改變,以允許文件:網址,而不是下面的HTTP:的,否則要麼無法索引任何東西,或將您的磁盤跳下到網站。 更改此行:

-^(file|ftp|mailto|https): 

    to this: 

    -^(http|ftp|mailto|https): 

2)抓取-urlfilter.txt可以在底部有規則拒絕一些網址。如果它有這個片段,它可能確定:

# accept anything else +.* 

3)我改變了我的nutch.xml包括以下內容:

<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/> 
+0

正則表達式,urlfilter.txt需要改變 – gmlvsv 2013-05-31 07:25:04