1
我們使用nutch來抓取我們的Intranet站點。在HDFS中寫入元數據
我們正在索引階段(我們修改了indexer.java的代碼)在xml文件中提取元數據,並且在本地模式下運行時,它向我們提供了所需的元數據。
現在,我們考慮在集羣模式下使用nutch(使用hadoop),當我們在集羣中爬行nutch時,我們能夠獲得索引,但不能獲得我們以前使用的本地模式下的元數據( Java的IO類來寫入元文件)。對於hadoop,我們已將其更改爲hadoop文件系統io類。但我們無法獲得元。
有沒有解決辦法,或者我們錯過了什麼?
由於提前, 地理