1

我有一個名爲'emails'的文件夾,其中有兩個子文件夾,它們以對應於文件分類的標籤命名(垃圾郵件或不發垃圾郵件,都是.txt文件)。這兩個子文件夾中有3000個文件。使用load_files:scikit-learn中的load_files不加載目錄中的所有文件

data = load_files('emails', shuffle='False') 
print len(data) 
print len(data.target) 

這將打印'5',然後'3000'。如果發現3000個分類標籤,數據長度如何才能達到5?

回答

3

您的數據存儲在data.data中,並以data.target爲目標。代替 嘗試print(len(data.data))

load_files()只是返回一個sklearn.datasets.base.Bunch,這是一個簡單的數據包裝。 所以,data的格式如下:

{ 
'DESCR': None, 
'data': [], 
'filenames': array(), 
'target': array(), 
'target_names': [] 
} 

這就是爲什麼len(data)返回5

希望這有助於!