訓練數據:當特徵的tf-idf值相同時,不同特徵的權重(w1,w2,...)值如何隨每個類的不同而有所不同?
"class_a" : ["first class"],
"class_b" : ["second class"],
"class_c" : ["third class"],
"class_d" : ["fourth class"]
特點:
['class', 'first', 'fourth', 'second', 'third']
袋字特徵矩陣(TF-IDF):
[[ 0.46263733 0.88654763 0. 0. 0. ]
[ 0.46263733 0. 0. 0.88654763 0. ]
[ 0.46263733 0. 0. 0. 0.88654763]
[ 0.46263733 0. 0.88654763 0. 0. ]]
後,我有符合上述特徵與LinearSVC
我以下coef矩陣:
coef_:
[[-0.150651 0.96191919 -0.41688159 -0.41685917 -0.41686954]
[-0.15064478 -0.41687195 -0.41686523 0.96193299 -0.41687502]
[-0.15065627 -0.4168764 -0.41689067 -0.41684964 0.9619155 ]
[-0.15064427 -0.41687134 0.96192893 -0.41686184 -0.41687397]]
我所瞭解的是,對不同特徵的不同權重實際上模仿了特徵對待分類的特定類的重要性。
但是,鑑於tf-idf值相同,權重值實際上有何不同?
例如class_a
中的功能'first'
的tf-idf值是0.88654763
,而class_b
中的功能'second'
的tf-idf值也是相同的,即0.88654763
。但根據矩陣,相應的權重分別爲0.96191919
和0.96193299
,它們稍有不同。這種差異背後的原因是什麼?