2015-04-06 84 views
1

我是一個機器學習的完全新手,雖然我有一些sci-kit分類器「工作」在我的數據集上,但我不確定我是否正確使用它們。我正在用標有訓練集的手做監督學習。如何選擇和使用不同數據類型的功能?

問題是:我的數據集中的每個項目都是一個字典, 80個鍵,它們是文本,布爾值或我想用作要素的整數。我有大約40,000件物品,並且手上標有大約800件物品。我的意思是選擇,例如,只使用布爾功能,或只有整數?我是否需要規範化特徵(將平均值+規模去除到單位差異)?我目前甚至不會嘗試對文本進行分析,因此甚至可能不會將這些功能提供給分類器。試試相同類型的特徵(整數)的各種排列/組合是否愚蠢?這也可能是我接近我的數據集完全錯誤...它的形狀如下:

[[a,b,c,...],[a,b,c,...], [a,b,c,...],...]

本質上,我希望實現的是數據集中每個項目的二進制分類,根據我的理解,基本上只是「好」或「差」手被貼上標籤。我發現有些分類器在不同的數據類型上工作得更好,比如伯努利樸素貝葉斯和K最近鄰居,當「決策邊界非常不規則」時。

最後我想分類精度在幾個不同的算法進行比較,除了希望隔離一個是我的數據分類實際上準確...

回答

3

在所有分類scikit學習需要的數字數據。布爾特性很好,整數特性取決於它們是編碼分類,序數還是數字數據。

您需要執行的預處理取決於功能的類型,而不取決於您是否要合併它們。將它們結合起來可能是一個好主意。

您可以使用CountVectorizer或TFIDFVectorizer對文本數據進行簡單轉換。

+0

謝謝,我欣賞它! – veksev