2017-04-07 12 views
0

今天是星期五,我非常疲憊,而且我遇到了一個非常奇怪的問題。Hadoop:輸出鼓舞人心的壓縮中的控制字符

在我的Reducer中,我有一個文本輸出。它包含一個帶有自定義分隔符的字符串,以便在下一個MapReduce作業中拆分。

以爲我很聰明,我用的分隔符是一個控制字符U + 0002。

輸出時,文件被壓縮。在我分裂任何東西之前,它沒有被壓縮。我非常特別需要避免由於我自己的原因進行壓縮。我試着手動關閉壓縮,但無濟於事。我花了一兩個小時試着想到的一切,我感到非常沮喪。

回答

0

答案是......不要在輸出中使用控制字符。或者至少就我所知,這就是答案!我很想知道是否有其他人反對這個問題。