我對處理多標籤分類問題的方法有疑問。文本分類:可擴展文本分類與多類文本分類
基於文獻回顧,我發現一種最常用的方法是問題變換方法。它將多標籤問題轉化爲多個單標籤問題,分類結果只是每個單標籤分類器的簡單聯合,使用二元相關方法。由於單個標籤問題可以被分類爲二元分類(如果有兩個標籤)或多類分類問題(如果有多個標籤,即標籤> 2),當前的轉換方法似乎都轉換了多標籤問題到一些二元問題。但是這會導致數據不平衡問題,因爲否定類可能比正面類有更多的文檔。
所以我的問題是,爲什麼不轉化爲一些多類問題,然後應用直接多類分類算法來避免數據不平衡問題。在這種情況下,對於一個測試文檔,每個訓練過的單標籤多類分類器將預測是否分配標籤,並且所有這種單標籤多類分類器預測結果的聯合將是該測試文檔的最終標籤集合。總之,與將多標籤分類問題轉換爲多個二元分類問題相比,將多標籤分類問題轉換爲多類分類問題可以避免數據不平衡問題。除此之外,上述兩種方法的一切都保持不變:您需要構造| L |(| L |表示分類問題中不同標籤的總數)單個標籤(二元或多元)分類器,您需要準備| L |需要對測試文檔中的每個單一標籤分類器進行測試,並且每個單一標籤分類器的預測結果的聯合是測試文檔的最終標籤集合。
希望任何人都可以幫助澄清我的困惑,非常感謝!