需要幫助將scikit-learn應用於這種不平衡的文本分類任務

我有一個多類文本分類/分類問題。我有一組具有K不同互斥類的地面實況數據。這在兩個方面都是不平衡的問題。首先，有些課程比其他課程更頻繁。其次，有些類別比其他類別更感興趣（這些類別通常與其相對頻率正相關，儘管有一些類別的興趣相當稀少）。需要幫助將scikit-learn應用於這種不平衡的文本分類任務

我的目標是開發一個單獨的分類器或它們的集合，以便能夠在保持合理回憶的同時以高精度（至少80％）對感興趣類進行分類（什麼是「合理」有點模糊）。

我使用的功能大多是典型的基於unigram-/bigram的功能以及來自正在分類的傳入文檔的元數據（例如，它們是通過電子郵件還是通過網絡表單提交）的一些二進制功能。由於數據不平衡，我傾向於爲每個重要的類開發二進制分類器，而不是像多類SVM那樣的單一分類器。

在scikit-learn中實現的ML學習算法（二進制或非二進制）允許訓練調整爲精度（例如回想或F1），我需要爲此設置哪些選項？

scikit-learn中的哪些數據分析工具可用於特徵選擇，以縮小可能與特定類的精度導向分類最相關的特徵？

這是不是一個真正的「大數據」的問題：K約100，k約爲15，用於訓練和測試提供給我的樣本總數約100,000。

THX

來源

2015-10-16 I Z

由於k較小，我只想手動完成。對於每個需要的課程，訓練您的個人（一個vs其他）分類器，查看精度 - 回憶曲線，然後選擇提供所需精度的閾值。

來源

2015-10-29 15:53:20

需要幫助將scikit-learn應用於這種不平衡的文本分類任務

回答

相關問題