我遇到了解析其中含有非法字符(二元標記)的文本文件的問題。的回答會是這樣如下:使用java.nio處理帶有二進制數據的字符串
test.csv
^000000^id1,text1,text2,text3
這裏^000000^
是源文件中的非法字符的文本表示。
我正在考慮在處理它之前使用java.nio來驗證行。所以,我想引入一個Validator特徵如下:
import java.nio.charset._
trait Validator{
private def encoder = Charset.forName("UTF-8").newEncoder
def isValidEncoding(line:String):Boolean = {
encoder.canEncode(line)
}
}
你們認爲這是處理這種情況的正確方法嗎?
謝謝
那麼,它的工作?如果是,你就完成了!如果沒有(或「不夠好」),那麼哪裏出了問題? – 2013-04-05 18:25:44
@RexKerr - 理想情況下,我希望驗證器能夠確保字符串的內容符合en-US。在字符編碼/解碼技術方面仍然有所改進,但我想知道是否有任何經過驗證的方法可以遵循。 – 2013-04-05 19:03:18