2011-08-19 65 views
3

我正在使用ICU的ustdio函數將UnicodeString對象寫入一系列編碼中的文件,但它似乎並未預先附加BOM。ICU字節順序標記(BOM)

我的代碼:

void write_file(const char* filename, UnicodeString &str) { 

    UFILE* f = u_fopen(filename, "w", NULL, "UTF-16 LE"); 
    u_file_write(str.getTerminatedBuffer(), str.length() + 1, f); 
    u_fclose(f); 
} 

int _tmain(int argc, _TCHAR* argv[]) 
{ 
    UnicodeString str(L"ΠαρθένωνΗ"); 

    write_file("test.txt", str); 

    return 0; 
} 

文件編碼並交換當我改變LE是,但有沒有BOM,在十六進制編輯器輸出文件:

A0 03 B1 03 C1 03 B8 03 AD 03 BD 03 C9 03 BD 03 97 03 00 00 

注意:如果我將代碼頁設置爲「UTF-16」,則有一個BOM,但是一旦我手動指定它消失的字節序。

或者,有沒有一種方法可以將UnicodeString寫入具有BOM的文件?

+2

那麼,有道理不是嗎?物料清單可以幫助文件的讀者發現尾端。因此,默認情況下您的計算機寫入的內容無關緊要。如果你使用「UTF-16」,那麼任何人都可以閱讀它。 –

+1

此行爲由Unicode標準規定:如果您有一些更高級別的協議(在本例中爲您的C代碼)指示字節順序,則不得使用BOM。 – Philipp

回答

5

只是猜測,當字節順序被很好地指定時,「UTF-16 LE」和「UTF-16 BE」被打算使用,並且在文件將被使用的上下文中BOM不是必需的。

您應該可以將自己的BOM character '\ufeff'寫入文件。

+0

你完全正確。如果你想要一個在utf-16 LE或BE下,你應該寫你自己的BOM字符。請注意,「utf-16」轉換器寫入BOM並「檢測」傳入的BOM,因此如果有BOM,utf-16可以讀取LE或BE。 u_fputc(0x00feff,f); –

2

u_fputc(0x00feff,f);

將做到這一點。

相關問題