2009-11-18 72 views
1

我想問的事情很簡單。我有一個HTML網頁瀏覽器控制的文件。將韓文文本轉換爲Unicode

現在,當我使用MSHTML範圍屬性選擇韓語單詞時,我能夠獲得 range.htmlTextrange.Text。他們都顯示韓語單詞。我想要做的就是將其轉換爲unicode格式。

可能嗎?

僅供參考我正在做這一切使用C#WinForms。

回答

1

您能否提供更多信息?當你閱讀它時,什麼格式是「韓語單詞」? (我假設與HTML文檔標題相同。)您可以發佈您想要閱讀的示例HTML頁面嗎?

如果問題在於您所得到的字符串只是在不同的代碼頁中,則可以使用.Net中的Encoding類將其轉換。例如,也許你的文本是iso-2022-kr。下面是一個轉換字符串的示例,在下面的代碼中稱爲「stringInKoreanIsoEncoding」:

Encoding koreanEncoding = Encoding.GetEncoding(50225); // 50225 is the code page for iso-2022-kr 
byte[] convertedToUtf8 = Encoding.Convert(koreanEncoding, Encoding.UTF8, koreanEncoding.GetBytes(stringInKoreanIsoEncoding)); 
string utf8String = Encoding.UTF8.GetString(convertedToUtf8);