2014-03-29 48 views
0

我有一項任務,需要對幾百萬種產品進行分類。 A今天來到mahout,開始閱讀一些表。Mahout文檔的「分類器」

至於現在我對mahout中的分類器這個詞有點困惑。我認爲使用分類器可以將文檔分類到任何可匹配的類別。

然後,閱讀幾張後,我覺得更像是說如果文檔是a or !a而不是檢查文檔是否是a or b or c or d ..

我在尋找的是一個解決方案來檢查多種可能性,如a or b or c or d ..。我在與mahout的木道上,或者是mahout也爲這些任務而建造?我想爲這個部分使用一個監督學習算法,我不知道mahout是否是一個框架,所以我現在有點困惑。

任何指針?

回答

1

我想你可能會爲你的問題做出mahout工作。我沒有自己做過,所以不能給你具體的,但這裏有兩種方法:

1)在N個可能性的每一個上訓練一個二元分類器:a或!a,b或!b,c或!c,d或!d ...,然後從N個結果中選擇最高概率以獲得分配。 Typicially分類輸出概率,而不是真/假

2)使用Mahout中檢查了這一點對於多標籤分類:https://medium.com/p/4ea08a4662ab

+0

謝謝,我會看看 – Johnny000