我試圖讀取一個文本文件並使用textmining包創建術語文檔矩陣。我可以創建術語文檔矩陣,我需要逐行添加每行。問題是我想一次包含整個文件。以下代碼中缺少什麼?提前感謝您的任何建議?從文本文件創建術語文檔矩陣
import textmining
def term_document_matrix_roy_1():
'''-----------------------------------------'''
with open("data_set.txt") as f:
reading_file_line = f.readlines() #entire content, return list
print reading_file_line #list
reading_file_info = [item.rstrip('\n') for item in reading_file_line]
print reading_file_info
print reading_file_info [1] #list-1
print reading_file_info [2] #list-2
'''-----------------------------------------'''
tdm = textmining.TermDocumentMatrix()
#tdm.add_doc(reading_file_info) #Giving error because of readlines
tdm.add_doc(reading_file_info[0])
tdm.add_doc(reading_file_info[1])
tdm.add_doc(reading_file_info[2])
for row in tdm.rows(cutoff=1):
print row
示例文本文件:「data_set.txt」包含以下信息:
讓我們寫一些Python代碼
到目前爲止,這本書主要探討特設檢索的過程。
一路上我們將學習一些重要的機器學習技巧。
輸出將成爲術語文檔矩陣,基本上出現一個特定單詞的次數。 輸出圖像:http://postimg.org/image/eidddlkld/
你沒有真正問過一個問題。你得到的輸出是什麼?你在期待什麼?什麼不行?什麼是錯誤信息? – 2013-05-10 11:42:08
正如我在問題中提到的那樣,我從文本文件中逐行添加一個數組,但是如何添加整個文件內容。所以它從文本文件中逐行讀取並顯示術語文檔矩陣?謝謝 – J4cK 2013-05-10 12:34:37
@Burhan Khalid問題現在已更新爲圖像。 – J4cK 2013-05-10 20:06:33