2011-06-09 79 views
1

我想用HTK開發基本的連接數字識別器。目前,識別器只需要識別0-10的數字,並且依賴於揚聲器(目前這不是問題)。以下是我如何進行識別:與HTK連接的數字識別器

  1. 獲取用戶記錄的wavfile並創建MFCC。
  2. 使用wordnet和字典作爲輸入在mfcc文件上運行HVite。在對HMM模型訓練

    注:

訓練初始HMM模型的基本單位已經從口頭數字串撲殺。我最終得到了每個數字約20個單位(大約),這些數字用於製作初始模型。嵌入式訓練模型通過連接基本單元(其基本單元連接隨機選擇)合成。以這種方式產生的句子總數約爲20000個。另外109個句子已經從測試階段所說的實際詞彙中提取出來。

我面臨的問題如下:
1.在長度大於4的連接數字字符串中,我得到的數字插入到輸出字符串中。輸入:99102,輸出:989818082
請注意,輸入中的所有數字都可以正確識別,只是在輸出處引入了多餘的數字。查看mlf文件顯示與這些詞相關的可能性值也是相似的。任何想法爲什麼這可能會發生?

我已經通過網絡查看了解決方案,但沒有遇到任何問題。任何幫助是最受歡迎的。

回答

1

您需要設置單詞插入損失(對於HVite -p選項) - 其最可能設置爲0.0(默認值)。你必須玩這個價值。從-1.0開始,走得更負。

+0

感謝您的回覆。會嘗試一下。 – Sriram 2011-07-07 12:39:34