2015-12-03 30 views
0

是否有可能跟蹤nutch發現鏈接的深度以及此鏈接的父鏈接。Nutch Crawling Path - 查看啤酒花solr

對於我的項目來說,在solr中看到抓取程序來自哪裏並且可能導致我可以創建一個依賴關係樹,其中用戶可以在其中查看該鏈接如何連接到根,這將是非常有趣的。

鏈接的數據是一個選項,還是我需要另一個程序來管理?

回答

1

Nutch在linkdb中保留頁面之間的關係,但是在索引時默認情況下不使用它。最簡單的方法是編寫一個自定義插件或破解得分深度的插件,以保持父鏈接。

深度可以通過激活評分深度插件來跟蹤,您可以將其與索引元數據插件結合使用,將元數據'深度'存儲到索引中。

您可能會發現使用StormCrawler可以更輕鬆地完成此操作,因爲它默認跟蹤深度和完整路徑。然後,只需在indexer.md.filter中指定鍵名,即可將這些索引編入索引。

+0

你能舉一個例子,我可以使用哪些對象? 我有「文字URL,NutchDocument文檔,CrawlDatum dbDatum,CrawlDatum fetchDatum,解析解析,Inlinks inlinks,float initScore」之間的選擇。我會在NutchDocument中搜索它,但我找不到一個好的HowTo。 鏈接可能是另一種可能性,但這將是「兒童鏈接」,對吧? – BeJay