2011-07-21 69 views
2

我正在研究一個系統,可以根據各種用戶輸入(如音節模板或修改的Backus Naur表單)創建構成fanatsy的單詞。然而,一種新模式計劃爲機器學習。在這裏,用戶沒有明確定義任何規則,而是粘貼一些文本,系統學習給定單詞的結構並創建相似的單詞。機器學習的單詞結構

我現在幼稚的做法是創建信鄰里概率表(包括特殊結束字「字母」),並通過字母對掃描輸入(使用空格和標點符號作爲單詞加油吧邊界)。創建一個詞將意味着查找每個字母的概率以跟隨當前字母,並根據概率隨機選擇一個,並重復,直到遇到字末尾。

但我正在尋找更復雜的方法(可能?)提供更好的結果。我對機器學習知之甚少,因此對主題,技術或算法的指點表示讚賞。

+1

一個小問題:在語言中,如果您生成單詞序列(另一個問題)或字母序列(您要求的),可能會生成一個新的單詞/字母,考慮到最後**兩個**字/字母(而不只是一個)。它仍然涉及相同的算法。其他文字/字母不會產生明顯更好的結果。 – Fezvez

回答

2

我認爲對於獨立詞(特別是名字),一個簡單的馬爾可夫鏈系統(你似乎在談論使用字母對時描述的)可以表現得很好。給它一個詞典,並根據它學到的東西把它放到一個新的名字上。你可能想調整馬爾可夫鏈的前綴長度,以得到很好的聽起來的結果(正如在你的問題的評論中指出的那樣,2個字母比一個好得多)。

我曾經用精靈和獸人名字詞典試過,得到了非常滿意的結果。

+0

聽起來很有希望,謝謝。 –