1
當我運行Apache Nutch 1.4爬行程序時,我想存儲一些附加信息。我想存儲每個URL的父項。更新Nutch獲取獲取的每個URL的父節點
例如,我想爬有2個錨鏈接到b.html頁面a.html和c.html所以,當我爬a.html,我應該得到的東西是這樣的: -
a.html null
b.html a.html
c.html a.html
我想存儲這樣的東西。 我讀過nutch是如何工作的,並且在eclipse中也運行過nutch。我還讀取fetcher.java並記錄它獲取內容的位置。但是我沒有成功知道Nutch在哪裏獲取給定頁面的子URL。我認爲這一步發生在解析步驟後。