scikit-learn中的load_files不加載目錄中的所有文件

我有一個名爲'emails'的文件夾，其中有兩個子文件夾，它們以對應於文件分類的標籤命名（垃圾郵件或不發垃圾郵件，都是.txt文件）。這兩個子文件夾中有3000個文件。使用load_files：scikit-learn中的load_files不加載目錄中的所有文件

data = load_files('emails', shuffle='False') 
print len(data) 
print len(data.target)

這將打印'5'，然後'3000'。如果發現3000個分類標籤，數據長度如何才能達到5？

2015-05-04 prfarlow

您的數據存儲在data.data中，並以data.target爲目標。代替嘗試print(len(data.data))。

load_files()只是返回一個sklearn.datasets.base.Bunch，這是一個簡單的數據包裝。所以，data的格式如下：

{ 
'DESCR': None, 
'data': [], 
'filenames': array(), 
'target': array(), 
'target_names': [] 
}

這就是爲什麼len(data)返回5

希望這有助於！

2015-05-04 10:13:06

回答