2016-01-12 48 views

回答

0

這是因爲類可能存在也可能不存在於您的系統中,但它不存在於需要的地方。

首先,完成下面的步驟

wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz 
gunzip content.rdf.u8.gz 

DMOZ包含圍繞三個億個URL。我們選擇一個每5000,讓我們最終在1000網址:

mkdir dmoz 
bin/nutch org.apache.nutch.tools.DmozParser content.rdf.u8 -subset 5000 > dmoz/urls 

解析器也需要幾分鐘的時間,因爲它必須解析完整的文件。最後,我們用選定的URL初始化crawldb。

bin/nutch inject crawl/crawldb dmoz 

&然後您想要點擊的其餘步驟。

相關問題