下面我有這段代碼,它將一段文本與一個停止詞集進行比較,並返回文本中不在停止詞集中的一列詞。然後我將單詞列表更改爲一個字符串,以便我可以在textmining模塊中使用它來創建術語文檔矩陣。如何在使用python textmining模塊構建文本文檔矩陣時保留超文字?
我在代碼中檢查顯示在列表和字符串中保留了帶連字符的單詞,但是一旦我將它們傳遞給代碼的TDM部分,就會打斷帶連字符的單詞。有沒有辦法在textmining模塊和TDM中保留帶連字符的單詞?
import re
f= open ("words") #dictionary
stops = set()
for line in f:
stops.add(line.strip())
f = open ("azathoth") #Azathoth (1922)
azathoth = list()
for line in f:
azathoth.extend(re.findall("[A-z\-\']+", line.strip()))
azathothcount = list()
for w in azathoth:
if w in stops:
continue
else:
azathothcount.append(w)
print azathothcount[1:10]
raw_input('Press Enter...')
azathothstr = ' '.join(azathothcount)
print azathothstr
raw_input('Press Enter...')
import textmining
def termdocumentmatrix_example():
doc1 = azathothstr
tdm = textmining.TermDocumentMatrix()
tdm.add_doc(doc1)
tdm.write_csv('matrixhp.csv', cutoff=1)
for row in tdm.rows(cutoff=1):
print row
raw_input('Press Enter...')
termdocumentmatrix_example()