2015-01-12 51 views
0

我有每個文件夾有多個文本文件的文件夾。該文件夾是在文本文件的類上命名的。如何在nltk/scikit學習中導入這些文件夾和文件進行文檔分類。我計劃使用Bi正常分離進行特徵選擇,並使用SVM進行分類。任何幫助將不勝感激導入自己的文件分類數據

回答

0

看看load_files這服務於此確切目的。在這裏你也可以找到一些examples

+0

確定。非常感謝 。我得到了答案。 – Axe

0

此代碼的工作

from sklearn.datasets import load_files 

dt=load_files('C:/test4',load_content=True) 
print dt.target_names 
X, y = dt.data, dt.target