2015-03-03 34 views
0

我需要解析一堆類似於下面的無格式文本。如何使用帶符號「|」的正則表達式解析文本

那些| DT | O考慮| VBN | O無政府主義者| NNS | O at | IN | O最佳| JJS | O share | NN | O a | DT | O某些| JJ | O家族| NN | Ø相似| NN | O | | O「| RQU | O

我需要使用正則表達式來解析數據到一個格式將是這樣的:。

的DT I -MISC

某些JJ O

在鄰

的DT乙

磅NN我

+0

到底是什麼,你正在尋找的格式讀取?你試圖使用什麼劃分?用空格隔開,用「|」,用....等隔開? – 2015-03-03 00:08:09

+0

由空格分開 – Anoonymonus 2015-03-03 00:08:55

+1

然後regex是完全矯枉過正。只需使用「分割」方法即可完成。你確定你還沒有試圖捕捉「|」......它看起來像你? – 2015-03-03 00:09:45

回答

4
with open('outfile.txt', 'wb') as outfile, open('infile.txt', 'r') as infile: 
    [outfile.write(i.replace('|', ' ') + '\n') for i in infile.read().split()] 

你基本上只是想用空格分割然後更換|空白是否正確?這似乎是你在找什麼。

編輯: 代碼現在寫入文件。

編輯2: 代碼現在從文件

+0

非常感謝! – Anoonymonus 2015-03-03 00:23:38

+0

welcome。 – 2015-03-03 00:24:06

+0

已更新的答案。 – 2015-03-03 01:39:39