如何確定上傳的文件是UTF-8還是UTF-16？

我有一個網站，用戶可以上傳一個txt文件的數據，數據將被導入到數據庫。但是，有些用戶使用UTF-8上傳數據，而其他用戶則使用UTF-16上傳數據。如何確定上傳的文件是UTF-8還是UTF-16？

byte[] fileData = null; 
    uploader.PostedFile.InputStream.Read(fileData, 0, length); 
    data = TLCommon.EncodeJsString(System.Text.Encoding.UTF8.GetString(fileData));

當文件以UTF-16格式保存並上傳時，數據爲垃圾。我該如何處理這種情況？

來源

2011-06-23 Shawn

您可以使用各種啓發式方法，例如檢查流中高比例的00字節。（這些不會以UTF-8出現，但在包含ASCII字符的UTF-16文本中很常見）。

但是，這不能區分UTF-8和Windows-1252，它們是不兼容的位編碼在美國英語Windows系統上都很常見。您可以添加更多的檢查，例如查找在一種編碼中無效但在另一種編碼中無效的字節序列，但是這開始變得非常複雜，並且通常不區分不同的單字節編碼。

Microsoft提供了一個名爲MLang的庫，該庫可以使用流中字節的統計分析自動檢測UTF-8，UTF-16和許多8位代碼頁。如果它有足夠大的文本樣本來處理它，它的準確性相當好。我blogged about how to use this method，並貼出full source code on GitHub。

來源

2011-06-23 19:48:20

所以更好的選擇是告訴他們只能用utf-8上傳？ – Shawn

@Shawn你可以，但我想「僅以UTF-8上傳」對於大多數非技術用戶來說是不可理解的，並且令技術用戶感到沮喪。 –

您可以使用幾個選項：檢查content-type是否包含指示編碼的字符集參數（例如Content-Type: text/plain; charset=utf-16）;檢查上傳的數據是否有BOM（文件中的前幾個字節，映射到UTF-16的Unicode字符U + FEFF - 2個字節，UTF-8的3個字節），或者如果您知道文件的某些內容（第一個字符應該是ascii，比如在XML中，以'<'開頭），那麼你可以用它來找出編碼。但是如果你沒有這些信息，你必須通過使用一些啓發式來猜測。

來源

2011-06-23 19:51:10 carlosfigueira

字節順序標記是'U + FEFF'（它是UTF16-LE中的'FF FE'或UTF-16BE中的'FE FF'）。 'U + FFFE'不是Unicode中的一個字符。 –

謝謝，內聯更正 – carlosfigueira

如何確定上傳的文件是UTF-8還是UTF-16？

回答

相關問題