我用下面的代碼讀取一個文件,然後我想使用re庫在文件中找到單詞。該文件包含土耳其文字符。所以我用utf-8解碼文件。 re圖書館不知道土耳其字符。下面的代碼不起作用。python unicode正則表達式
text= unicodedata.normalize("NFKD",codecs.open(os.path.abspath("texts/kopru1.txt"),"rb").read().decode("utf-8"))
text=text.replace("\r\n"," ").lower()
aa= re.findall(ur"[a-zçşıöü]+", text,re.UNICODE)
雖然 「艾謝費裏德阿卡爾」 是一個詞,這個詞似乎爲 「AYS」 和 「Ë」 的。
你能舉一些例子數據並告訴我們你想做什麼嗎? – kqr
示例字符串是「ayşekulinköprü」。我想找到這個字符串中的單詞。 – hinzir
如果你想按字分割爲什麼不使用'text.split(「」)'? – PurityLake