0
我不知道如何添加多字節編碼支持,並且對多字節語言知之甚少。 正在使用搜索引擎,我的應用程序使用所有編程語言掃描代碼。 某些源代碼可能在其註釋部分使用CJK編碼。 爲了方便起見,我將java作爲源代碼示例,我的應用程序也在java中。java中的多字節編碼
首先,我想編寫測試用例來查看待索引的源代碼是否具有CJK編碼,以及它是否由我的應用程序編碼。 如果支持不包含,我希望我的測試失敗,以便將來可以添加。
但是我不知道如何測試它, 如何在單元測試的輸入樣本中引入CJK,以及在Java應用程序控制臺中輸出什麼。
您通常想知道您將事先處理哪些編碼,因爲我不知道確定某個特定文件的編碼是否有直接的方法(如果有的話)。如果你有一個輸入編碼的選擇,UTF8/Unicode是要走的路,否則你可能必須用用戶可選擇的編碼來混淆。 – 2011-04-28 18:49:29
所有的Unicode編碼都是多字節的,不是嗎?無論如何,它是不可能*檢測*你有哪種編碼。你*必須*被告知在哪種編碼中應該處理數據。 – tchrist 2011-04-28 19:10:00
這是不是很清楚你在這裏問什麼。您是否希望以特定字符編碼讀取文件,確定文件的字符編碼方式,使用特定字符編碼創建文件以測試您的工作或者將這些文件組合在一起? – 2011-04-28 19:11:23