是的,我知道語音識別相當複雜(作爲輕描淡寫)。我正在尋找的是一種區分也許 20-30短語的方法。能夠分開單詞(離散語音很好)會很好,但不是必需的。該軟件將取決於用戶(即供我使用)。我不是在尋找現有的軟件,而是爲了自己去做這件事的好方法。我已經研究了各種現有的方法,它似乎將聲音分解爲音素,而常見的方法對於我的需求有點過分。簡單的語音識別方法
對於某些情況下,我只是想用一些簡單的語音命令來控制我的電腦的某些方面。我知道Windows已經有語音識別軟件,但我想自己作爲一個學習練習去做這個。命令將很簡單,如「打開Google」或「靜音」。我想到的(不知道這是否是一個好主意)是有些命令會複合。所以「靜音」只是「靜音」。而「打開」命令可以單獨識別,然後有後綴(Google,Photoshop等)。與另一個網絡/模型/任何認可。但我不確定以這種方式尋找前綴/分詞符會產生比不必處理更多個別命令更好的結果。
我一直在研究sensptrons,hopfield網絡(雖然它們有點過時於我所理解的)和HMM,而當我理解這些背後的想法(我之前實施了ANN)時,我沒有真的知道哪一個最適合這個任務。我假設線性矢量量化模型也是合適的,但我無法真正找到很多文獻來達到這個目的。任何指導/資源將不勝感激。