我有一個大數據框與人的數據。我想扁平所有奇怪的變音符號並將它們轉換爲最接近的ASCII字符。基於一個解決方案,我發現在我的SO做到以下幾點:正常化錯過波蘭字符
for column in df.columns:
df[column] = df[column].astype("str").str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')
它適用於大多數情況下(沒有檢查了所有的),但是我已經注意到它忽略字母「L」在波蘭。例如Lech Wałęsa
被翻譯爲Lech Waesa
,而我的期望是看Lech Walesa
。我的猜測是,這是ignore
參數在str.encode
方法中的作用。任何想法如何使它適用於任何變音符號?
這對我來說非常合適。我選擇它作爲最好的答案,因爲它很簡單。 – pawelty