2014-05-10 63 views
3

序列我有UTF-8字符序列,例如這樣的事情:代表字節串在波斯語格式

\xd8\xa2\xd8\xb4\xd9\x86\xd8\xa7\xdb\x8c\xdb\x8c \xd8\xa8\xd8\xa7 \xd8\xa2\xd8\xb1\xd9\x85\xd8\xa7\xd9\x86 \xd9\xbe\xd8\xb1\xd9\x88\xda\x98\xd9\x87 \xd9\x84\xd8\xba\xd8\xaa \xd9\x86\xd8\xa7\xd9\x85\xd9\x87 \xd8\xa2\xd8\xb2\xd8\xa7\xd8\xaf 

我知道是從波斯語網站,應該代表了一些波斯語的話。 如何用波斯語字符表示這個序列?

我正在使用Python進行工作。

+1

這是不同的,因爲在參考問題字符都是以\ u開頭的,但在我的情況下,看起來像所有以\ x開始。 – TJ1

+0

我建議你閱讀https://docs.python.org/2/howto/unicode.html – jonrsharpe

+0

jonrsharpe:我看着你的建議,它沒有說如何將字節串的序列轉換爲波斯語字符。 – TJ1

回答

3

您只需將字節序列作爲字節序列,即將文字前面的字母與b對齊,然後解碼爲UTF-8。像這樣:

$ python3 
>>> text = b'\xd8\xa2\xd8\xb4\xd9\x86\xd8\xa7\xdb\x8c\xdb\x8c \xd8\xa8\xd8\xa7 \xd8\xa2\xd8\xb1\xd9\x85\xd8\xa7\xd9\x86 \xd9\xbe\xd8\xb1\xd9\x88\xda\x98\xd9\x87 \xd9\x84\xd8\xba\xd8\xaa \xd9\x86\xd8\xa7\xd9\x85\xd9\x87 \xd8\xa2\xd8\xb2\xd8\xa7\xd8\xaf' 
>>> text.decode('utf-8') 
'آشنایی با آرمان پروژه لغت نامه آزاد' 
+0

非常感謝你,這正是我想要的,並解決了這個問題。 – TJ1