2016-12-06 130 views
0

嗨我想分類數據集使用naivebayesclassifier.For爲此我想使用外部數據集,我已經從google.this數據集下載包含兩個文件夾的正面評論和負面評論。每個文件夾包含1000個.txt文件。如何在Python代碼中將該文件導入爲一個訓練數據集。我是機器學習的新手,所以我對此沒有多少想法。請幫助我。python中的機器學習外部數據集學習

回答

0

您可以使用os.listdir,從(https://docs.python.org/2/library/os.html),例如:

import os 
fileList = os.listdir('train_directory') 
for file in fileList: 
    # add content of file to dataset. 
+0

os.listdir代碼爲works.thanks想guiding.I讀取每一個文本文件,並提取所有積極的話並標記詞作爲正在結束。下面的代碼,但它顯示錯誤,說明0_9.txt這個文件名不存在,但它在文件夾posfilenames = os.listdir(「C:/ Users/Sharmili/Desktop/movie_reviews/pos」) 打印(posfilenames)文件名在posfilenames: f =打開(文件名,'r') reviews = f.read() pos_reviews = reviews.split() pos_reviews.append((create_word_feature(words),「positive」)) print(len(pos_reviews)) –

+0

您能否請我幫助我 –

+0

您需要使用f = open(dir +「/」+ filename) –