在Python字符串中查找UTF-8字符的索引

我試圖在UTF-8編碼的字符串中使用外語（例如字符：ش）查找某個字符的索引（或多個索引）。在Python字符串中查找UTF-8字符的索引

我試過unicode.find('ش'),word.find(u'ش'),word.find(u'\\uش')也正則表達式：re.compile(u'\\uش)無濟於事。有趣的是，在Visual Studio（我的IDE使用IronPython）處於調試模式下，word.find(u'\\uش')在變量監視窗口中返回正確的索引，但它不在實際代碼中（返回index=-1）。

file= codecs.open(file,'r','utf-8')

有我丟失的東西：

我使用下面的命令讀取該文件中的字符串？還是有另一種方法來解決這個問題？

來源

2012-11-29 poetic crayons

如何搜索'u'\ u1588''？這可能是源代碼中的編碼問題。 –

使用'x.find（「ش」）'（其中'x'是一個unicode對象）適用於我。如果將字符輸入到解釋器（或腳本）中，則可能是控制檯/文件編碼設置不正確，因此，將「ش」粘貼到的字節不是該字節字符。您可以嘗試通過編碼點號碼或文件編碼來查找字符。 – BrenBarn

如何檢查腳本編碼並將其更改爲UTF-8？ –

一旦你使用codecs來讀取文件，它不再是UTF-8，它是一個內部的Unicode字符串表示。這應該與程序中的Unicode文字完全兼容。

>>> line=u'abcش' 
>>> line.find(u'ش') 
3

編輯：我以前的測試可能是誤導，因爲這兩種絲線通過IDE輸入。這裏有一個更好的例子：

>>> f = codecs.open(r'c:\temp\temp.txt', 'r', 'utf-8-sig') 
>>> line = f.readline() 
>>> print line 
This is a test.ش 

>>> line.find(u'\u0634') 
15

來源

2012-11-29 21:26:07

感謝您的回答。它仍然不適合我。我在Windows下工作，所以它可能是編碼不一致？我嘗試在Red Hat上運行相同的程序，但我仍然不喜歡 –

@poeticcrayons，肯定會出現編碼不一致的情況，這就是爲什麼我的第二個示例使用'u'\ u0634'' - 它不受編碼問題的影響。我在問題的評論中看到你正在嘗試'u'\ u1588''這是錯誤的字符。 –

在Python字符串中查找UTF-8字符的索引

回答

相關問題