2016-04-01 22 views
0

總noobob問題。我有一個文件,每行包含一個數字,大約有5百萬行,每行有不同的數字,我如何使用spark和python找到文件中的前5個值。火花python產品文件的前5個數字

+0

一天過去了,但你沒有反應,我應該擔心嗎? – gsamaras

回答

1
  1. 您分發您在節點間讀取的數據。
  2. 每個節點發現它是5個局部最大值。
  3. 您將所有的當地最大值組合起來,並保留其中最大的5個,即 這就是答案。
+0

如果一個節點有兩個最大的數據點會怎麼樣?我們不會忽略第二大嗎? – JeD

+0

正確@JeD,回答更新,非常感謝! – gsamaras