我有以下txt文件,其中包含每個單詞的POS(Part of Speech)標記。PYTHON:刪除txt文件中的POS標記
Needless/jj to/to say/vb ,/, I/ppss was/bedz furious/jj at/in this/dt unparalleled/jj intrusion/nn upon/in free/jj enterprise/nn ./. How/wrb dared/vbn they/ppss
有沒有什麼辦法來讀取,而POS標籤的文件,這樣的結果將是:
不用說,我是在自由企業這個無與倫比的入侵大發雷霆。 他們如何敢
所以,基本上我想刪除/
後的任何字符。
words = re.findall('\w+',open(input_file).read())
上面的代碼將刪除/但像jj,ppss這樣的縮寫仍然會出現。 那麼,如何刪除/跟隨任何字符。
會將文件有任何'/'不在一個標籤指示器?單詞/標籤組合是否總是空格分開?使用'.split()'是可能或不可行的天真的解決方案。 – geoffspear 2013-03-12 15:16:46
請看我的回答 – eyquem 2013-03-12 18:26:08