0
我有每個文件夾有多個文本文件的文件夾。該文件夾是在文本文件的類上命名的。如何在nltk/scikit學習中導入這些文件夾和文件進行文檔分類。我計劃使用Bi正常分離進行特徵選擇,並使用SVM進行分類。任何幫助將不勝感激導入自己的文件分類數據
我有每個文件夾有多個文本文件的文件夾。該文件夾是在文本文件的類上命名的。如何在nltk/scikit學習中導入這些文件夾和文件進行文檔分類。我計劃使用Bi正常分離進行特徵選擇,並使用SVM進行分類。任何幫助將不勝感激導入自己的文件分類數據
看看load_files這服務於此確切目的。在這裏你也可以找到一些examples。
此代碼的工作
from sklearn.datasets import load_files
dt=load_files('C:/test4',load_content=True)
print dt.target_names
X, y = dt.data, dt.target
確定。非常感謝 。我得到了答案。 – Axe