我正在使用烏爾都語(在巴基斯坦,印度,孟加拉國語言中使用的語言)將語音識別轉換爲烏爾都語的語音。到目前爲止,我什麼也沒做,但只是找到了meyda JavaScript庫從數據框中提取mfccs。一些文件說,對於ASR來說,需要12個或13個mfccs中的26個。在測試期間,我在wav擴展名的文件夾中有46個音素(/ b /,/ g /,/ d/...)。在其中一個音素上運行meyda進程後,它會爲每個音素創建4到5個幀,其中每個幀包含前12個值中的每個幀。由於不到10個聲望,帖子圖片被禁用。但您可以在以下鏈接上查看圖片。該圖像包含7個音素/ b /幀。每幀包括13 mfccs。紅色長垂直線值是438,其它或48,38等 http://realnfo.com/images/b.png接下來的步驟是在語音識別網絡中使用mfccs
我的問題是,是否我需要在數據庫中的這些幀(的MFCC)保存爲預定義的音素爲/ B /和相同的I對所有其他音素進行綁定,然後綁定麥克風,meyda將提取每幀的mfccs,並且我將使用動態時間規整對將提取的幀mfcc與預定義的幀mfccs匹配的javascript進行編程。最後將獲得特定音素的最小距離。
mfccs之後的專業方式是HMM和GMM,但我不知道如何處理。我研究了很多關於HMM和GMM的文檔,但都是浪費。
合着者#2在這裏。只是補充說,如果你還沒有,當我們改進MFCC實施時,你應該拉最新的。此外,您可能想嘗試在http://dsp.stackexchange.com/上詢問,因爲它們可能會爲您提供更多建議。 – nevos