apache nutch履帶 - 保持只檢索單個網址

INJECT步驟只會檢索單個URL - 試圖抓取CNN。我用默認配置（下面是nutch網站） - 這可能是 - 根據我的價值，它不應該是10個文檔嗎？apache nutch履帶 - 保持只檢索單個網址

<configuration> 
    <property> 
    <name>http.agent.name</name> 
    <value>crawler1</value> 
    </property> 
    <property> 
    <name>storage.data.store.class</name> 
    <value>org.apache.gora.hbase.store.HBaseStore</value> 
    <description>Default class for storing data</description> 
    </property> 
    <property> 
     <name>solr.server.url</name> 
     <value>http://x.x.x.x:8983/solr/collection1</value> 
    </property> 
<property> 
    <name>plugin.includes</name> 
    <value>protocol-httpclient|urlfilter-regex|index-(basic|more)|query-(basic|site|url|lang)|indexer-solr|nutch-extensionpoints|protocol-httpclient|urlfilter-reg 
ex|parse-(text|html|msexcel|msword|mspowerpoint|pdf)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)protocol-http|urlfilter-regex|parse-(html|tika|m 
etatags)|index-(basic|anchor|more|metadata)</value> 
</property> 
<property> 
    <name>db.ignore.external.links</name> 
    <value>true</value> 
</property> 
<property> 
    <name>generate.max.count</name> 
    <value>10</value> 
</property> 
</configuration>

來源

2016-05-20 user1025852

Nutch的抓取包括4個基本步驟：生成，提取，分析和更新DB。這些步驟對於nutch 1.x和nutch 2.x都是相同的。所有四個步驟的執行和完成使得一個爬行週期。

注入器可以是將URL添加到crawldb的第一步;如here和here所述。

要填充webtable的初始行，您可以使用InjectorJob。

哪個我想你已經提供即cnn.com

generate.max.count限制URL的數量要拾取的表格中，單域作爲陳述here。

現在重要的是您的crawldb有多少cnn.com網址。

選項1

你generate.max.count = 10，你有seeded或注射，然後在執行爬行週期超過10個網址給crawldb，Nutch的應取不超過10個網址，

選項2

如果你注入了只有一個網址，你只進行一次週期性檢索然後在第一個週期，你會得到只有一個文檔處理，因爲只有一個網址是你crawldb。您的crawldb將在每個爬網週期結束時更新。因此，在執行第二次抓取週期和第三次抓取週期等時，nutch應該只解析來自特定域的最多10個URL。

來源

2016-05-21 07:53:24 MShoaib91

謝謝你是對的。我現在明白，我必須做幾個循環 - 感謝真正有用的鏈接！ – user1025852

相關問題 - 比方說，我希望每隔一小時掃描一次「新內容」（例如，從CNN \ Politics部分），目前的行爲是從現有網址獲取更多 - 這導致我獲得越來越多的舊文章。如何在每次迭代時「清除」內部數據庫 - 並始終以CNN \ Politics開頭？ – user1025852

要從特定頁面開始抓取，您應該「注入」相同的url，即cnn.com/politics。您還可以編輯您的正則表達式-urlfilter.txt文件來提及要打開的URL如果你想忘記舊的信息，更改/刪除抓取信息的目錄，例如crawldb，segments，linkdb等你在抓取命令期間提供給nutch – MShoaib91

apache nutch履帶 - 保持只檢索單個網址

回答

相關問題