編碼問題UTF-8

我需要從CRM軟件獲取XML文件。編碼問題UTF-8

XML文件編碼採用UTF-8編碼，但存在一些「奇怪」字符，而且由於這些字符，我無法使用simple_xml解析文件。

例如：

<ROW ART_LIB="CAT NxA1 2008" />

的「XA1」炭存在。它是什麼，以及如何將它編碼爲「好」字符？

好結果被解析爲：

<ROW ART_LIB="CAT N° 2008" />

所以，實際上，解析xml文件，我這樣做：

$fichier = utf8_encode(file_get_contents($inputfileName)); 
$xmlInput = simplexml_load_string($fichier);

你有一個想法，以解決這個問題？

編輯：

感謝Jason可可的幫助下，我已經解決這個問題做到這一點：

function mac_roman_to_iso($string) 
{ 
return strtr($string, 
"\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa1\xa4\xa6\xa7\xa8\xab\xac\xae\xaf\xb4\xbb\xbc\xbe\xbf\xc0\xc1\xc2\xc7\xc8\xca\xcb\xcc\xd6\xd8\xdb\xe1\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf1\xf2\xf3\xf4\xf8\xfc\xd2\xd3\xd4\xd5Ð", 
"\xc4\xc5\xc7\xc9\xd1\xd6\xdc\xe1\xe0\xe2\xe4\xe3\xe5\xe7\xe9\xe8\xea\xeb\xed\xec\xee\xef\xf1\xf3\xf2\xf4\xf6\xf5\xfa\xf9\xfb\xfc\xb0\xa7\xb6\xdf\xae\xb4\xa8\xc6\xd8\xa5\xaa\xba\xe6\xf8\xbf\xa1\xac\xab\xbb\xa0\xc0\xc3\xf7\xff\xa4\xb7\xc2\xca\xc1\xcb\xc8\xcd\xce\xcf\xcc\xd3\xd4\xd2\xda\xdb\xd9\xaf\xb8\x22\x22\x27\x27-"); 
} 

$fichier = mac_roman_to_iso(file_get_contents($fichier)); 
$xmlInput = simplexml_load_string(utf8_encode($fichier));

，後，編碼從ISO-8859-1價值UTF- 8與iconv（）

來源

2011-08-19 bahamut100

您是否100％確定遠程文件的編碼是UTF-8？如果將其視爲ISO-8859-1，會發生什麼情況，它看起來更好嗎？如果遠程文件提供的編碼數據不正確，最好的辦法是嘗試讓它們修復它（或者在可能的情況下重寫編碼） –

爲什麼你'utf8_encode'它再次，如果你確定它已經是'UTF -8'編碼。也許'$ fichier = utf8_decode（file_get_contents（$ inputfileName））;'會做詭計嗎？ – J0HN

是的，它是UTF-8。當我將它轉換爲記事本++時，我得到它： – bahamut100

問題不在於UTF-8。問題是你的XML文件不是UTF-8編碼，而是MacRoman編碼。把它當作一個MacRoman編碼文件，它應該可以正常工作。

來源

2011-08-19 08:57:11

理想情況下，我認爲你不應該使用utf8_encode（）或utf8_decode（）。

您必須在應用程序的所有級別上聲明相同的編碼。

你檢查了你的CRM，數據庫，PHP文件，瀏覽器的默認編碼嗎？

來源

2011-08-19 08:42:27

回答

相關問題