0

我有一個多類文本分類/分類問題。我有一組具有K不同互斥類的地面實況數據。這在兩個方面都是不平衡的問題。首先,有些課程比其他課程更頻繁。其次,有些類別比其他類別更感興趣(這些類別通常與其相對頻率正相關,儘管有一些類別的興趣相當稀少)。需要幫助將scikit-learn應用於這種不平衡的文本分類任務

我的目標是開發一個單獨的分類器或它們的集合,以便能夠在保持合理回憶的同時以高精度(至少80%)對感興趣類進行分類(什麼是「合理」有點模糊) 。

我使用的功能大多是典型的基於unigram-/bigram的功能以及來自正在分類的傳入文檔的元數據(例如,它們是通過電子郵件還是通過網絡表單提交)的一些二進制功能。由於數據不平衡,我傾向於爲每個重要的類開發二進制分類器,而不是像多類SVM那樣的單一分類器。

scikit-learn中實現的ML學習算法(二進制或非二進制)允許訓練調整爲精度(例如回想或F1),我需要爲此設置哪些選項?

scikit-learn中的哪些數據分析工具可用於特徵選擇,以縮小可能與特定類的精度導向分類最相關的特徵?

這是不是一個真正的「大數據」的問題:K100k約爲15,用於訓練和測試提供給我的樣本總數約100,000

THX

回答

0

由於k較小,我只想手動完成。對於每個需要的課程,訓練您的個人(一個vs其他)分類器,查看精度 - 回憶曲線,然後選擇提供所需精度的閾值。