2011-01-07 68 views
1

我們使用nutch來抓取我們的Intranet站點。在HDFS中寫入元數據

我們正在索引階段(我們修改了indexer.java的代碼)在xml文件中提取元數據,並且在本地模式下運行時,它向我們提供了所需的元數據。

現在,我們考慮在集羣模式下使用nutch(使用hadoop),當我們在集羣中爬行nutch時,我們能夠獲得索引,但不能獲得我們以前使用的本地模式下的元數據( Java的IO類來寫入元文件)。對於hadoop,我們已將其更改爲hadoop文件系統io類。但我們無法獲得元。

有沒有解決辦法,或者我們錯過了什麼?

由於提前, 地理

回答

1

我們提取XML文件的元數據,在索引階段(我們修改indexer.java的代碼),當在本地模式下運行它給了我們所需的元數據。

修改索引是不是最好的選擇由您遇到

問題作爲說明你可以:

  • 添加元數據作爲注入的一部分(如果你想要做的對於種子只)
  • 或寫一個自定義索引插件:和例如讓它從conf中的文件加載XML md

conf /的內容被添加到作業文件並分佈在羣集的節點上。在代碼中有很多索引插件的例子。

也許你應該使用Nutch用戶列表來獲得更廣泛的受衆?