2012-04-23 123 views
4

我可以使用Nutch對網頁進行檢索和索引,但我不知道如何讀取索引並從中提取數據。如何閱讀Nutch索引的內容?

任何人都可以向我介紹一些有用的工具來閱讀索引?

我想添加一個中文語言分析器和一個IndexFilter插件,所以我想讀取索引來驗證我的插件。而且,我想對使用Java進行爬網的數據執行一些過程。

回答

0

使用luke tool來瀏覽nutch索引。轉儲索引選項可以爲整個索引創建一個xml文件。如果你必須通過代碼來完成,那麼你需要學習lucene。

要閱讀抓取的內容,請使用nutch segment reader

0

您可以使用所提供的讀取命令狀

bin/nutch readseg xxx 

閱讀的內容。

希望this會幫助你。

+0

嗨,John,很高興和你溝通。我無法在個人資料頁面找到您的電子郵件(實際上,我是新來的)。請寄給我([email protected])。我期待着您的電子郵件。
最好。 – Freedom 2012-04-24 12:00:58