我想指望從包含數據如下文本文件的話:字數問題
ROK :
ROK/(NN)
New :
New/(SV)
releases, :
releases/(NN) + ,/(SY)
week :
week/(EP)
last :
last/(JO)
compared :
compare/(VV) + -ed/(EM)
year :
year/(DT)
releases :
releases/(NN)
像/(NN)/(SV),和/(EP)被認爲是類的表達。 我想在每個類別之前提取單詞並計算整個文本中有多少單詞。
我想在這樣一個新的文本文件寫一個結果:
(NN)
releases 2
ROK 1
(SY)
New 1
, 1
(EP)
week 1
(JO)
last 1
......
請幫我!
這裏是我的車庫代碼; _;它不起作用。
import os, sys
import re
wordset = {}
for line in open('E:\\mach.txt', 'r'):
if '/(' in line:
word = re.findall(r'(\w)/\(', line)
print word
if word not in wordset: wordset[word]=1
else: wordset[word]+=1
f = open('result.txt', 'w')
for word in wordset:
print>> f, word, wordset[word]
f.close()
此代碼顯示出色的性能!但實際上我想解析韓國的話。在這種情況下,此代碼無法正常工作。你有什麼主意嗎? – ooozooo
哦..剛剛找到你的評論。你還需要幫助嗎? –