2015-03-08 135 views
-1

我在尋找一個Weka分類器來處理這個問題:
一個實例是一個triolet(或更多)reals(或不是):xy和z。
我只知道積極的例子(所以我可以訓練)。

例:

3.524,-4.529875,3.6295626
2.7670588,-3.4611764,6.03
3.878375,-4.47225,4.6831875
4.6477776,-4.3755555,3.6093333
3.8646667,-4.043389,3.3882778

Weka是什麼分類器?

所以,現在我想創建一個分類器。如果是或者否,它可以說我(以百分比的概率)一個新實例在這個「同一個家庭」中。
在此先感謝您的答案。

回答

0

做監督二進制分類的最好方法是用兩個類的數據來訓練分類器。儘管只有正面數據的培訓分類器有報道,但我的經驗並不那麼美好。這兩個類的人類標記數據與自動標記來自未標記數據池的負類數據的過程之間存在巨大差異。

該方法可以找到herehere。但是這些方法有其侷限性,我的建議是爲專家標記合理數量的負面數據實例。如果成本太高,那麼您可以從小的負面數據開始,應用半監督學習來增加負面數據或使用SMOTE綜合增加負面數據。但是這些又有其侷限性。

+0

再次感謝拉什迪,假設我的負面實例與正面實例一樣多。不幸的是,這些負面數據太差了,沒有一個好的分類器。我可以說一個新的實例嗎? :好吧,如果你是積極的,這是好的(概率超過0.5),但如果你不是 - >沒有另一個測試否定。總結一下,我想只是使用概率來積極。 – berguiz 2015-03-09 09:34:58

+0

是的,如果您的負面實例具有與正值相同的特徵值,那麼它是可行的。如果正面和負面數據的性質不同,那麼這是一個質量問題。但從數量上來說,這是非常可行的。 – 2015-03-09 17:44:14