2014-06-15 83 views
0

抓取網站時,如www.example.com有一個頁面x.html,其中有4個子頁面的鏈接,如果處理鏈接,我將獲得所有的x.html標題4個子頁面。使用nutch抓取子頁面時獲取父標題

在這種情況下,我們添加父標題給nutch的孩子?

回答

1

您可以編寫HTMLParseFilter並將自定義元數據(see JIRA)添加到主頁面標題爲值的輸出鏈接。

順便說一句,你會得到一個更相關的觀衆張貼在Nutch user list