我是機器學習的新手,我正在尋找一種基於訓練數據集學習字符串模式的技術。用於學習字符串模式的機器學習技術
我的問題: 我有不同類型的單詞,屬於不同的類別。每個類別都有一些自己的模式(例如,一個只有特殊字符的固定長度,另一個只存在於這個「單詞」類別中的其他字符)。
例如:
"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
...
我正在尋找一個機器學習技術,瞭解自身的這些模式的基礎上,訓練數據。我已經嘗試着自己定義一些預測變量(例如字符長度,特殊字符的數量......),然後使用神經網絡來學習和預測類別。但那是非常不合我想要的。我想要一種技術來自己學習每個類別的模式 - 甚至可以學習我從未想過的模式。
我想爲算法提供學習數據(由單詞範疇示例組成),並希望它爲每個類別學習模式,以便在稍後的生產中預測類似或相同的單詞。
有沒有一種最先進的方法來做到這一點?
感謝您的幫助
非常感謝您的結構清晰和明確的答案。我已經用weka GUI嘗試過了,但沒有成功。我認爲有一個原因可能是我的單詞不是自然語言單詞,它們更像是單個隨機文本標識符。 – chresse