INJECT步驟只會檢索單個URL - 試圖抓取CNN。 我用默認配置(下面是nutch網站) - 這可能是 - 根據我的價值,它不應該是10個文檔嗎?apache nutch履帶 - 保持只檢索單個網址
<configuration>
<property>
<name>http.agent.name</name>
<value>crawler1</value>
</property>
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
<description>Default class for storing data</description>
</property>
<property>
<name>solr.server.url</name>
<value>http://x.x.x.x:8983/solr/collection1</value>
</property>
<property>
<name>plugin.includes</name>
<value>protocol-httpclient|urlfilter-regex|index-(basic|more)|query-(basic|site|url|lang)|indexer-solr|nutch-extensionpoints|protocol-httpclient|urlfilter-reg
ex|parse-(text|html|msexcel|msword|mspowerpoint|pdf)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)protocol-http|urlfilter-regex|parse-(html|tika|m
etatags)|index-(basic|anchor|more|metadata)</value>
</property>
<property>
<name>db.ignore.external.links</name>
<value>true</value>
</property>
<property>
<name>generate.max.count</name>
<value>10</value>
</property>
</configuration>
謝謝你是對的。我現在明白,我必須做幾個循環 - 感謝真正有用的鏈接! – user1025852
相關問題 - 比方說,我希望每隔一小時掃描一次「新內容」(例如,從CNN \ Politics部分),目前的行爲是從現有網址獲取更多 - 這導致我獲得越來越多的舊文章。如何在每次迭代時「清除」內部數據庫 - 並始終以CNN \ Politics開頭? – user1025852
要從特定頁面開始抓取,您應該「注入」相同的url,即cnn.com/politics。您還可以編輯您的正則表達式-urlfilter.txt文件來提及要打開的URL如果你想忘記舊的信息,更改/刪除抓取信息的目錄,例如crawldb,segments,linkdb等你在抓取命令期間提供給nutch – MShoaib91