我做文本分類的兩個標籤與scikit學習..我裝我的文本文件的方法load_files文本分類與Scikit學習
categories={'label0','label1'}
text_data = load_files(path,categories=categories)
從以下結構
:
train
├── Label0
│ ├── 0001.txt
│ └── 0002.txt
└── Label1
├── 0001.txt
└── 0002.txt
我的問題是,當我嘗試看看text_data.data的形狀,它返回:
print (type(text_data.data))
<type 'list'>
print text_data.data.shape
AttributeError: 'list' object has no attribute 'shape'
X = np.array(text_data.data)
print x.shape
(35,)
它返回一維數組..我認爲它應該是二維numpy數組或字典,其中第一個將爲文本和另一個將爲類(標籤0或1).. 我錯過了什麼?
我編輯的問題..我的問題是,返回的列表是一個維數組...只有文本存儲在那裏......不應該返回列表包含文本以及類標籤? – Ophilia
一旦你得到你的數據,不要忘記洗牌,也要創建你的驗證集。 (儘可能嚴格,你應該在創建文本特徵之前進行洗牌和拆分(按照David Maust的建議)) – user1269942