如何用非直接數據分類

-1

我是機器學習領域的新手。試圖用他們的電話記錄對10個人進行分類。如何用非直接數據分類

的電話通話記錄看起來像這樣

UserId  IsInboundCall Duration PhoneNumber(hashed) 
1   false   23   1011112222 
2   true    45   1033334444

用這種8700個原木與SVM從sklearn訓練有素給出的結果是準確度88％

我有幾個關於這個結果的問題和
什麼是使用一些非序號數據的正確方法（例如電話號碼）

我不確定使用散列電話號碼作爲功能，但這種多類分類器的準確性並不差，這只是一個巧合嗎？
如何使用非oridnal數據作爲功能？
如果此分類器需要分類更多1000個類別（更多1000個用戶），SVM是否仍然適用於該情況？

任何建議對我很有幫助。謝謝

來源

2017-07-31 Kyeong Wook Ma

1）嘗試沒有電話號碼的SVM作爲功能，以瞭解它有多大的影響。

2）爲了避免有序數據，您可以轉換爲數字或使用K方法中的一個。假設您添加了一個可能值爲{IOS, Android, Blackberry}的Phone OS字段，您可以將其表示爲數字0,1,2或3個特徵(1,0,0), (0,1,0), (0,0,1)。 3）只要數據是近似線性可分的，SVM仍然會給出好的結果。要實現這一點，您可能需要添加更多功能並映射到不同的功能空間（RBF內核是一個好的開始）。

來源

2017-08-01 18:30:53

如何用非直接數據分類

回答

相關問題