1
我正試圖計算矩形矩陣上每個對角線的總和。我正在使用Python和Hadoop流媒體,但我找不到任何方式配置Hadoop流媒體來獲取每行的偏移量,如this guy所示,使用TextInputFormat
。使用TextInputFormat和Python進行Hadoop流式傳輸 - 記錄行號
StackOverflow上還有另一個question詢問同樣的事情,但沒有迴應如何做到這一點。 而hadoop doc說了一些關於丟棄keys of LongWritable class
,但我不確定這是否是抵消。
如何配置作業以獲得偏移量? 我是否需要創建一個從TextInputFormat
派生的新類,而不是返回LongWritable
?如果我不知道Java,我該怎麼做?由於