UTF-8解碼庫

我必須在Windows的MSVC 10中使用Unicode UTF-8的應用程序中編寫代碼。我知道UTF-8編碼的字符串將使用每個字符1或2個字節。所以，我的問題是：std :: string是否適合這個？如果是的話，我該如何解碼字符串？據我所知std :: string只是一個字節數組，它不提供任何解碼邏輯。我怎樣才能知道字符串的邏輯長度？我如何從字符串中提取邏輯字符？是否有任何庫可以幫助我從字符串中提取邏輯字符？UTF-8解碼庫

例如：如果我有性病字符串「奧萊報」 :: string的，我需要知道的是，長度爲3，而不是4.

來源

2012-06-25 PermanentGuest

UTF-8每個字符最多可以使用4個字節，而不只是一個或兩個。 – deceze

通過解碼字符串，你的意思是什麼[確切地說]（http://utf8everywhere.org/#faq.glossary）？更重要的是，爲什麼你需要知道長度？ Unicode通常沒有意義。 – ybungalobill

一個commonally使用圖書館ICU - International Components for Unicode

來源

2012-06-25 10:16:04 Mark

感謝@Mark爲此。 – PermanentGuest

-2

首先，你可能需要調用mbstowcs（）函數將UTF-8字符轉換爲寬字符。然後，如果您希望結果爲8位，那麼如果您有「Unicode」字符（ISO-8859-1平面以外的字符，也稱爲Latin 1），則會丟失數據。

請注意，「Windows」編碼不等於ISO-8859-1的1到1，但在大多數情況下，ISO-8859-1是人們現在使用的。

參考：http://www.cplusplus.com/reference/clibrary/cstdlib/mbstowcs/

好吧，如果你只是想字符長度，使用mblen（）函數：

len = mblen(str.c_str(), str.length());

附加說明：一個簡單的方法來實現mblen（）是計數不在0x80和0xBF之間的字節數，因爲它們是多字節序列的一部分。如果您通過片狀串行連接接收到UTF-8字節序列，這一點特別有用。

來源

2012-06-25 10:14:35

「在大多數情況下，ISO-8859-1是人們現在使用的東西」。在interwebs上，我發現CP1252相當頻繁地被貼上了ISO-8859-1的標籤。不確定哪一個你會說他們在這種情況下「使用」，但是「大多數人」使用的都不重要，重要的是少數人的文本打破了你的代碼;-) –

這就是不是OP想要的。他爲什麼要將UTF-16無損地轉換爲單字節碼點？這個問題並不意味着在任何地方。提到ISO-8859-1只是被誤導了。「在大多數情況下[這是]人們現在使用的東西」是完全錯誤的。事實上，現代瀏覽器實際上使用不同的編碼*，即使你明確地要求這種編碼，因爲即使他們這樣說，幾乎沒有人會表示ISO-8859-1。 –

或者如何轉換爲utf-16或utf-32進行內部處理。 –

是，std::string是appropriare但你已經注意到了這一點只在字節，而不是Unicode代碼點進行操作。那std::string是不透明的類型;這並不一定是壞的（事實上，它有一些優點，請參閱下面的鏈接以獲取信息），但是如果需要有關字符的信息，則需要對字符串進行解碼。

對於UTF-8的實際處理（如有必要），可以使用Boost.NoWide庫來解碼UTF-8。

此外，我建議閱讀UTF-8 everywhere manifesto瞭解有關使用UTF-8與其他Unicode轉換的一些信息。

來源

2012-06-25 10:17:52

std :: string使得很難通過各種方式對字符串進行排序和測試字符。不，如果你不需要這樣的話，那確實可以使用使用std :: string的UTF-8字符串。你也可以使用QString（Qt）或CString（MFC ...）。 –

感謝@Konrad Rudolph提供鏈接。它們很有用......從最初的一瞥來看，它看起來像Boost.Nowide庫沒有stringstream ...但是，我需要詳細查看。 – PermanentGuest

@Alexis爲此您可以（確實，*必須*）提供自定義比較器。不過，它並不侷限於'std :: string'，在使用寬字符時，由於存在組合字符等原因，它甚至是真的。 –

回答

相關問題