2012-11-14 75 views
-1

我是ML新手。我有一個差異報告,註釋表明好的差異和糟糕的差異。示例 -差異報告分類器

舊字符串新的字符串DIFF註解

ABC ABC良好

PQR XYZ壞

LMN WXY好

....

鑑於這種訓練集,是否有可能使用分類器來預測未來差異報告的註釋,假定它們具有相似的內容。如果是這樣,哪個分類器最適合這項任務?

+0

很想知道標記它的原因。謝謝! – user379151

+0

我的旗幟:脫離主題,太理性了。不是編程/ SW特定。 www.cs.stackexchange.com如果任何地方 - 22小時前有幫助 –

回答

1

除非您嘗試並調整其參數,否則無法知道哪個是「最佳分類器」。如果你是這個領域的初學者,Weka可以讓你開始。

0

分類器不是魔術棒,它可以接受任何東西並且有意義。您需要將數據分解爲「特徵」或「信號」,然後分類器可以檢測出它可以用於在將來自動標記數據的模式。考慮到你給我們的示例訓練集(包含3條短線),任何人都不可能猜測分類器可以利用哪些重複出現的共同點來實現其工作。
如果您可以考慮計算機可以研究的一些潛在信號,然後用它們進行智能猜測,那麼可能自動識別線路可以獲得的註釋。分類器的最佳選擇主要取決於您選擇的信號類型。如果每個字符串中都有反覆出現的單詞,那麼也許樸素貝葉斯可能會做到這一點,如果你想出的信號形成一個數字向量,那麼邏輯迴歸或svm將是很好的選擇。