3
我用Nutch 1.5來抓取(使用抓取命令),發佈這個readlinkdb轉儲包含任何東西。另外,在索引過濾器中,鏈接爲空。什麼原因導致inlinks爲null?Nutch readlinkdb不輸出任何東西
我用Nutch 1.5來抓取(使用抓取命令),發佈這個readlinkdb轉儲包含任何東西。另外,在索引過濾器中,鏈接爲空。什麼原因導致inlinks爲null?Nutch readlinkdb不輸出任何東西
也許你只是索引一個特定的網站。在這種情況下,如果nutch-default.xml
中的db.ignore.internal.links
爲真,nutch將不存儲內部鏈接。在nutch-site.xml
中將其設置爲false,並且您的linkdb將開始增長。
<property>
<name>db.ignore.internal.links</name>
<value>false</value>
<description>If true, when adding new links to a page, links from
the same host are ignored. This is an effective way to limit the
size of the link database, keeping only the highest quality
links.
</description>
</property>