0
抓取網站時,如www.example.com有一個頁面x.html,其中有4個子頁面的鏈接,如果處理鏈接,我將獲得所有的x.html標題4個子頁面。使用nutch抓取子頁面時獲取父標題
在這種情況下,我們添加父標題給nutch的孩子?
抓取網站時,如www.example.com有一個頁面x.html,其中有4個子頁面的鏈接,如果處理鏈接,我將獲得所有的x.html標題4個子頁面。使用nutch抓取子頁面時獲取父標題
在這種情況下,我們添加父標題給nutch的孩子?
您可以編寫HTMLParseFilter並將自定義元數據(see JIRA)添加到主頁面標題爲值的輸出鏈接。
順便說一句,你會得到一個更相關的觀衆張貼在Nutch user list