我想構建一個hadoop應用程序,它可以從一個文件讀取單詞並在另一個文件中搜索。Hadoop從另一個文件中的一個文件搜索單詞
如果存在的話 - 它寫入到一個輸出文件 如果單詞不存在 - 它有可能寫入另一個輸出文件
我試圖在Hadoop中的幾個例子。我有兩個問題
兩個文件大約每個200MB。檢查另一個文件中的每個單詞可能會導致內存不足。有沒有其他的方法來做到這一點?
如何將數據寫入不同的文件,因爲hadoop的reduce階段的輸出只寫入一個文件。是否有可能有一個用於縮小階段的過濾器來將數據寫入不同的輸出文件?
謝謝。
嗨,我有implemet幾乎爲你做同樣的事情,但我Hadoop的初學者,真的不設法使這:/請請你能看看我的問題,並給我一些反饋,我真的很掙扎,不能得到任何幫助:/ http://stackoverflow.com/questions/2986271/need-help-implementing-this-algorithm -with-map-hadoop-mapreduce – Julia 2010-06-12 16:26:52