2016-05-20 72 views
0

INJECT步驟只會檢索單個URL - 試圖抓取CNN。 我用默認配置(下面是nutch網站) - 這可能是 - 根據我的價值,它不應該是10個文檔嗎?apache nutch履帶 - 保持只檢索單個網址

<configuration> 
    <property> 
    <name>http.agent.name</name> 
    <value>crawler1</value> 
    </property> 
    <property> 
    <name>storage.data.store.class</name> 
    <value>org.apache.gora.hbase.store.HBaseStore</value> 
    <description>Default class for storing data</description> 
    </property> 
    <property> 
     <name>solr.server.url</name> 
     <value>http://x.x.x.x:8983/solr/collection1</value> 
    </property> 
<property> 
    <name>plugin.includes</name> 
    <value>protocol-httpclient|urlfilter-regex|index-(basic|more)|query-(basic|site|url|lang)|indexer-solr|nutch-extensionpoints|protocol-httpclient|urlfilter-reg 
ex|parse-(text|html|msexcel|msword|mspowerpoint|pdf)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)protocol-http|urlfilter-regex|parse-(html|tika|m 
etatags)|index-(basic|anchor|more|metadata)</value> 
</property> 
<property> 
    <name>db.ignore.external.links</name> 
    <value>true</value> 
</property> 
<property> 
    <name>generate.max.count</name> 
    <value>10</value> 
</property> 
</configuration> 

回答

0

Nutch的抓取包括4個基本步驟:生成,提取,分析和更新DB。這些步驟對於nutch 1.xnutch 2.x都是相同的。所有四個步驟的執行和完成使得一個爬行週期

注入器可以是將URL添加到crawldb的第一步;如herehere所述。

要填充webtable的初始行,您可以使用InjectorJob。

哪個我想你已經提供即cnn.com

generate.max.count限制URL的數量要拾取的表格中,單域作爲陳述here

現在重要的是您的crawldb有多少cnn.com網址。

選項1

你generate.max.count = 10,你有seeded或注射,然後在執行爬行週期超過10個網址給crawldb,Nutch的應取不超過10個網址,

選項2

如果你注入了只有一個網址,你只進行一次週期性檢索然後在第一個週期,你會得到只有一個文檔處理,因爲只有一個網址是你crawldb。您的crawldb將在每個爬網週期結束時更新。因此,在執行第二次抓取週期和第三次抓取週期等時,nutch應該只解析來自特定域的最多10個URL。

+0

謝謝你是對的。我現在明白,我必須做幾個循環 - 感謝真正有用的鏈接! – user1025852

+0

相關問題 - 比方說,我希望每隔一小時掃描一次「新內容」(例如,從CNN \ Politics部分),目前的行爲是從現有網址獲取更多 - 這導致我獲得越來越多的舊文章。如何在每次迭代時「清除」內部數據庫 - 並始終以CNN \ Politics開頭? – user1025852

+0

要從特定頁面開始抓取,您應該「注入」相同的url,即cnn.com/politics。您還可以編輯您的正則表達式-urlfilter.txt文件來提及要打開的URL如果你想忘記舊的信息,更改/刪除抓取信息的目錄,例如crawldb,segments,linkdb等你在抓取命令期間提供給nutch – MShoaib91