2012-08-13 30 views
0

我正在開發一個新聞分類系統,其中特定的新聞項目被分配到組織或公司名稱。例如,標有「Apple將於2012年9月推出新款iPhone」的新聞分類歸入「Apple」新聞。 到目前爲止,在用一堆話題(如蘋果新聞,谷歌新聞,微軟新聞,三星新聞,美國銀行新聞等等)訓練完分類器之後,我完成了一項訓練有素的模型,獲得了近99%的正確分類實例。 現在的問題是將「三星和谷歌準備攻擊蘋果」等新聞分爲三個主題,「蘋果」,「三星」和「谷歌」。分類在多個類別中的項目

我的問題在這裏是如何使用Mahouts分類將單個項目分類到多個類別。我在此線程中看到了類似的問題http://mail-archives.apache.org/mod_mbox/mahout-user/201206.mbox/%[email protected]%3E

特德鄧寧給了一個有趣的答案,爲多個主題製作單獨的類別,但在我的情況下,這些組合很多。我不得不將新聞分類到近15,000家公司,實際上任何新聞都可能是15000家公司中的任何一家的混合體。因此排除組合作爲一個單獨的類別的做法! 第二個建議是將主題排列在層次結構中,因爲公司名稱不會聚合到任何基本類別,所以此處也不適用。

擁有15000個型號的15000個主題可以做到,但聽起來也不太合理!

那麼分類多主題新聞的正確方法是什麼呢?

謝謝!

回答