2011-12-11 114 views
3

是的,我知道語音識別相當複雜(作爲輕描淡寫)。我正在尋找的是一種區分也許 20-30短語的方法。能夠分開單詞(離散語音很好)會很好,但不是必需的。該軟件將取決於用戶(即供我使用)。我不是在尋找現有的軟件,而是爲了自己去做這件事的好方法。我已經研究了各種現有的方法,它似乎將聲音分解爲音素,而常見的方法對於我的需求有點過分。簡單的語音識別方法

對於某些情況下,我只是想用一些簡單的語音命令來控制我的電腦的某些方面。我知道Windows已經有語音識別軟件,但我想自己作爲一個學習練習去做這個。命令將很簡單,如「打開Goog​​le」或「靜音」。我想到的(不知道這是否是一個好主意)是有些命令會複合。所以「靜音」只是「靜音」。而「打開」命令可以單獨識別,然後有後綴(Google,Photoshop等)。與另一個網絡/模型/任何認可。但我不確定以這種方式尋找前綴/分詞符會產生比不必處理更多個別命令更好的結果。

我一直在研究sensptrons,hopfield網絡(雖然它們有點過時於我所理解的)和HMM,而當我理解這些背後的想法(我之前實施了ANN)時,我沒有真的知道哪一個最適合這個任務。我假設線性矢量量化模型也是合適的,但我無法真正找到很多文獻來達到這個目的。任何指導/資源將不勝感激。

回答

2

前段時間,我讀了一篇關於有限詞彙系統的白皮書,該系統使用了簡單的識別過程。該系統將每個話語分爲少量話筒(如果我沒有記錯的話,總共24個話筒,時間上是6個,量級上是4個),它所做的只是計算每個話筒音頻測量的樣本數量。有一個模糊邏輯規則庫,然後解釋每個話語的24個計數,併產生一個解釋。

我想(對於某些應用程序)一個簡單的匹配過程也可能工作得很好,其中當前話語的24個bin計數與每個存儲的原型的簡單計數相匹配,並且最少的那個總體差異是贏家。

1

有語音識別一些開源項目:

  1. HTK(隱馬爾可夫模型工具包)
  2. 獅身人面像

兩個有解碼器,培訓,語言模型工具包。 Eveything建立一個完整和強大的語音識別器。 Voxforge爲開源語音識別工具包提供聲學和語言模型。