使用分類算法(例如樸素貝葉斯或SVM)和StringToWordVector,可以使用TF/IDF並在整個當前類中統計術語頻率,而不僅僅是看在一個單一的文件?TF/IDF可以在賬戶中使用
讓我解釋一下,我希望計算能夠給予給定分類(不僅僅是給定文檔)非常頻繁但在整個語料庫中非常頻繁的詞的高分。
開箱即用或需要一些額外的開發嗎?
謝謝:)
使用分類算法(例如樸素貝葉斯或SVM)和StringToWordVector,可以使用TF/IDF並在整個當前類中統計術語頻率,而不僅僅是看在一個單一的文件?TF/IDF可以在賬戶中使用
讓我解釋一下,我希望計算能夠給予給定分類(不僅僅是給定文檔)非常頻繁但在整個語料庫中非常頻繁的詞的高分。
開箱即用或需要一些額外的開發嗎?
謝謝:)
我覺得你在這裏讓自己感到困惑---你所要求的基本上就是該類文檔的特徵權重。這是學習算法打算優化的。只需要擔心文件的有用表示,這些文件必須對它們所屬的類不變(因爲對於看不見的測試文檔,您將不知道類是)。
我想計算給高分到是給定類很頻繁的話(不只是爲給定的文檔),但在整個語料庫不是很頻繁。
您似乎想要受監督的詞加權。我不知道任何現成的實現,但有一個literature about it主機。例如。加權方案tf-χχ用χ²獨立性檢驗的結果替換idf,因此在統計上取決於某些類別的術語得到提高,並且還有其他幾個術語。
Tf-idf本身就是無監督的本質。
改變idf可能會幫助你在某些場景。
可以使用定義爲IDF:
日誌(1個+ P(在這個類的術語)/ P(在其它類的術語))
缺點:每個類都有一個不同的IDF,這可以是解釋爲每個不同階層的詞彙在區分這個分類時都有不同的貢獻。
應用:通過在原生貝葉斯中添加idf,我在查詢關鍵字分類方面得到了改進。提取關鍵字時表現良好。