2017-07-31 50 views
-1

我是機器學習領域的新手。 試圖用他們的電話記錄對10個人進行分類。如何用非直接數據分類

的電話通話記錄看起來像這樣

UserId  IsInboundCall Duration PhoneNumber(hashed) 
1   false   23   1011112222 
2   true    45   1033334444 


用這種8700個原木與SVM從sklearn訓練有素給出的結果是準確度88%

我有幾個關於這個結果的問題和
什麼是使用一些非序號數據的正確方法(例如電話號碼)

  1. 我不確定使用散列電話號碼作爲功能,但這種多類分類器的準確性並不差,這只是一個巧合嗎?
  2. 如何使用非oridnal數據作爲功能?
  3. 如果此分類器需要分類更多1000個類別(更多1000個用戶),SVM是否仍然適用於該情況?

任何建議對我很有幫助。謝謝

回答

1

1)嘗試沒有電話號碼的SVM作爲功能,以瞭解它有多大的影響。

2)爲了避免有序數據,您可以轉換爲數字或使用K方法中的一個。假設您添加了一個可能值爲{IOS, Android, Blackberry}的Phone OS字段,您可以將其表示爲數字0,1,2或3個特徵(1,0,0), (0,1,0), (0,0,1)。 3)只要數據是近似線性可分的,SVM仍然會給出好的結果。要實現這一點,您可能需要添加更多功能並映射到不同的功能空間(RBF內核是一個好的開始)。

相關問題