所以我必須從以前的作業的輸出文件格式(txt文件)查找最-K
" 145
"Defects," 1
"Information 1
"Plain 2
"Project 5
"Right 1
#51302] 1
$5,000) 1
& 3
'AS-IS', 1
( 1
("the 1
每條線的左側,是我讀單詞從文檔和每行右側的數字是我計算它的次數。我想使用Python & Hadoop Streaming來創建另一個地圖縮減作業,以查找top-k值。在這種情況下,我們說5。我無法想象映射器應該做什麼。
我應該分析每一行並將每個單詞和計數附加到列表中。那麼從這些列表中,我會採取top-k值並將其發送給reducer嗎?然後reducer讀取所有這些列表並只返回top-k值?如果有人可以通過僞代碼提供一些建議或糾正我,如果我在錯誤的道路上,將不勝感激。謝謝!