0
很抱歉的混亂冠軍,這是很難定義...在一行中兩次降低Hadoop中
我希望做的是採取單詞作爲輸入序列一個Hadoop作業和輸出線如下:
小寫字母序列頻率的小寫字母序序列頻率的序列
我想到一個例子是最好的解釋:
假設我輸入的數據是:
the sun
the sun
the sun
The sun
The sun
The Sun
我想
the sun 6 the sun 3
the sun 6 The sun 2
the sun 6 The Sun 1
結束了,我怎樣才能減少兩個小寫序列頻和原序列頻?
謝謝@安德魯。我做了一些非常類似的事情,結果很好。 – antares