我有一個包含許多詞拼寫幾個變種的文本文件:的Python:標準化的文本文件
對於例如
identification ... ID .. identity...contract.... contr.... contractor...medicine...pills..tables
所以我想有一個同義詞文本文件,其中包含單詞的同義詞,並希望用主詞替換所有的變體。基本上我想要標準化輸入文件。
對於e.g我的同義詞列表文件看起來像
identification = ID identify
contracting = contract contractor contractors contra......
word3 = word3_1 word3_2 word3_3 ..... word3_n
.
.
.
.
medicine = pills tables drugs...
我想最終的輸出文件看起來像
identification ... identification .. identification...contractor.... contractor.... contractor...medicine...medicine..medicine
如何得到有關Python編程?
非常感謝您的幫助!
空格拆分會添加尾部標點符號 - 例如「顯示您的ID」。如果以空格分割,將不會給出乾淨的「ID」字符串以轉換爲「標識」。大寫/小寫也需要處理。 – PaulMcG
@Paul McGuire:感謝您的評論。我將'\ s + | \ S +'更改爲'\ w + | \ W +'以將標點符號與單詞分開,並添加了處理大小寫的代碼。 @Pradeep:這些變化不太可能,但可能有問題的後果:同義詞列表中帶有標點符號的單詞(如'can't')將不再匹配,其含義隨着大小寫而變化的單詞('Polish'是國籍,但是'polish '是一個動詞)可能會被相同的同義詞替換。這些問題可以用更多的代碼來處理,但是除非它影響你的情況,否則我們不要這樣做。 – unutbu
謝謝保羅。您的代碼按預期工作。 – Zenvega