機器學習的單詞結構

我正在研究一個系統，可以根據各種用戶輸入（如音節模板或修改的Backus Naur表單）創建構成fanatsy的單詞。然而，一種新模式計劃爲機器學習。在這裏，用戶沒有明確定義任何規則，而是粘貼一些文本，系統學習給定單詞的結構並創建相似的單詞。機器學習的單詞結構

我現在幼稚的做法是創建信鄰里概率表（包括特殊結束字「字母」），並通過字母對掃描輸入（使用空格和標點符號作爲單詞加油吧邊界）。創建一個詞將意味着查找每個字母的概率以跟隨當前字母，並根據概率隨機選擇一個，並重復，直到遇到字末尾。

但我正在尋找更復雜的方法（可能？）提供更好的結果。我對機器學習知之甚少，因此對主題，技術或算法的指點表示讚賞。

一個小問題：在語言中，如果您生成單詞序列（另一個問題）或字母序列（您要求的），可能會生成一個新的單詞/字母，考慮到最後**兩個**字/字母（而不只是一個）。它仍然涉及相同的算法。其他文字/字母不會產生明顯更好的結果。 – Fezvez

我認爲對於獨立詞（特別是名字），一個簡單的馬爾可夫鏈系統（你似乎在談論使用字母對時描述的）可以表現得很好。給它一個詞典，並根據它學到的東西把它放到一個新的名字上。你可能想調整馬爾可夫鏈的前綴長度，以得到很好的聽起來的結果（正如在你的問題的評論中指出的那樣，2個字母比一個好得多）。

我曾經用精靈和獸人名字詞典試過，得到了非常滿意的結果。

2011-07-21 13:41:48 samy

聽起來很有希望，謝謝。 –

回答