1
我希望將一種格式的二進制文件轉換爲SequenceFile。Hadoop Streaming作業與二進制輸入?
我有一個Python腳本,採用該格式的標準輸入,可以輸出任何我想要的。
輸入格式不是基於行的。單個記錄本身是二進制的,因此輸出格式不能用\ n分隔或分割成幾行。
我可以使用Hadoop Streaming接口來使用二進制格式嗎?我如何生成二進制輸出格式?
我假設答案是「否」,除非我另有聲明。
我希望將一種格式的二進制文件轉換爲SequenceFile。Hadoop Streaming作業與二進制輸入?
我有一個Python腳本,採用該格式的標準輸入,可以輸出任何我想要的。
輸入格式不是基於行的。單個記錄本身是二進制的,因此輸出格式不能用\ n分隔或分割成幾行。
我可以使用Hadoop Streaming接口來使用二進制格式嗎?我如何生成二進制輸出格式?
我假設答案是「否」,除非我另有聲明。
你可能會考慮使用NullWritable作爲輸出,並直接在你的python腳本中生成SequenceFile。您可以在github中查找hadoop-python項目以查看候選代碼:儘管它確實有點大 - 重/重,它處理序列文件生成。