2016-02-03 62 views
1

我正試圖計算矩形矩陣上每個對角線的總和。我正在使用Python和Hadoop流媒體,但我找不到任何方式配置Hadoop流媒體來獲取每行的偏移量,如this guy所示,使用TextInputFormat使用TextInputFormat和Python進行Hadoop流式傳輸 - 記錄行號

StackOverflow上還有另一個question詢問同樣的事情,但沒有迴應如何做到這一點。 而hadoop doc說了一些關於丟棄keys of LongWritable class,但我不確定這是否是抵消。

如何配置作業以獲得偏移量? 我是否需要創建一個從TextInputFormat派生的新類,而不是返回LongWritable?如果我不知道Java,我該怎麼做?由於

回答

0

我做StackOverflow上一些調查研究,並有另一個人問same thing但沒有人回答他雖然說使用-inputformat org.apache.hadoop.mapred.lib.NLineInputFormat的作品,但它需要大量的時間作業完成。

我知道這可能會有更好的答案,但直到有人回答,這已經足夠了。