2012-10-08 132 views
3

我用Nutch 1.5來抓取(使用抓取命令),發佈這個readlinkdb轉儲包含任何東西。另外,在索引過濾器中,鏈接爲空。什麼原因導致inlinks爲null?Nutch readlinkdb不輸出任何東西

回答

3

也許你只是索引一個特定的網站。在這種情況下,如果nutch-default.xml中的db.ignore.internal.links爲真,nutch將不存儲內部鏈接。在nutch-site.xml中將其設置爲false,並且您的linkdb將開始增長。

<property> 
    <name>db.ignore.internal.links</name> 
    <value>false</value> 
    <description>If true, when adding new links to a page, links from 
    the same host are ignored. This is an effective way to limit the 
    size of the link database, keeping only the highest quality 
    links. 
    </description> 
</property>