2014-11-20 89 views
0

我想讀一個ctrl-a分隔文件在燙傷。我收到一個錯誤,說它找到了錯誤的字段數(期望166,找到142),然後顯示它正在嘗試讀取的行。由於某些原因,它不會讀取文件第一部分中的分隔符。這裏是我使用的代碼:閱讀ctrl分隔符在燙傷

Csv(args("input"), separator = "\u0001", fields = schema) 
    .read 
    .groupBy('var2){group => group.sum[Long]('var3)} 
    .write(Tsv(args("output"))) 

我是新來的燙傷,所以也許我正在使用CSV功能不正確/不適當。任何關於可能發生的事情的想法?

回答

0

我會建議看看它的錯誤行,看看是否有任何控制字符嵌入該字段值。 我有一個快速運行在閱讀由此(開始標題!!)控制字符分隔的文件,我可以很好地閱讀。所以建議看看數據 - 如果可能的話,你可以提供樣本數據。

+0

請問選民有什麼理由讓我明白什麼是錯的。是不是標題(soh)的控制/開始和相同? http://www.fileformat.info/info/unicode/char/0001/index.htm http://unicodelookup.com/#ctrl – technotring 2014-12-22 01:04:42