2013-10-01 75 views
0

我目前正在開發短西班牙語(MX)採訪(長度~2分鐘)的音頻抄寫器。我一直在網上衝浪,但找不到這個,可能太簡單了:/。在運行.jar時,我從es_MX_broadcast ... voxforge軟件包中得到了這個警告(我假設)所有帶有重音的單詞都在/etc/h4.dict中,並且根本沒有任何轉錄或其他錯誤。使用Sphinx4和es_MX_broadcast_cont_2500

...

WARNING dictionary The dictionary is missing a phonetic transcription for the word 'kyrgyzst�'

'WARNING dictionary The dictionary is missing a phonetic transcription for the word 'explotaci�'

WARNING dictionary The dictionary is missing a phonetic transcription for the word 'inclu�'

...

我的線索是,也許有與文本編碼器的一些配置問題,但也許我需要創建LANGUAG e模型。我真的想訓練它,但首先我需要它的工作。下面是config.xml文件的語言學家/字典/ language_model/acoustic_model部分

<component name="lexTreeLinguist" 
      type="edu.cmu.sphinx.linguist.lextree.LexTreeLinguist"> 
    <property name="logMath" value="logMath"/> 
    <property name="acousticModel" value="wsj"/> 
    <property name="languageModel" value="trigramModel"/> 
    <property name="dictionary" value="dictionary"/> 
    <property name="addFillerWords" value="false"/> 
    <property name="fillerInsertionProbability" value="1E-10"/> 
    <property name="generateUnitStates" value="false"/> 
    <property name="wantUnigramSmear" value="true"/> 
    <property name="unigramSmearWeight" value="1"/> 
    <property name="wordInsertionProbability" 
      value="${wordInsertionProbability}"/> 
    <property name="silenceInsertionProbability" 
      value="${silenceInsertionProbability}"/> 
    <property name="languageWeight" value="${languageWeight}"/> 
    <property name="unitManager" value="unitManager"/> 
</component>  

<component name="dictionary" 
    type="edu.cmu.sphinx.linguist.dictionary.FastDictionary"> 
    <property name="dictionaryPath" 
       value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/etc/h4.dict"/> 
    <property name="fillerPath" 
     value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/etc/filler.dict"/> 
    <property name="addSilEndingPronunciation" value="false"/> 
    <property name="wordReplacement" value="&lt;sil&gt;"/> 
    <property name="unitManager" value="unitManager"/> 
</component> 

<component name="trigramModel" 
     type="edu.cmu.sphinx.linguist.language.ngram.large.LargeTrigramModel"> 
    <property name="unigramWeight" value=".7"/> 
    <property name="maxDepth" value="3"/> 
    <property name="logMath" value="logMath"/> 
    <property name="dictionary" value="dictionary"/> 
    <property name="location" 
    value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/etc/H4.arpa.Z.DMP"/> 
</component> 

<component name="wsj" 
      type="edu.cmu.sphinx.linguist.acoustic.tiedstate.TiedStateAcousticModel"> 
    <property name="loader" value="wsjLoader"/> 
    <property name="unitManager" value="unitManager"/> 
</component> 

<component name="wsjLoader" type="edu.cmu.sphinx.linguist.acoustic.tiedstate.Sphinx3Loader"> 
    <property name="logMath" value="logMath"/> 
    <property name="unitManager" value="unitManager"/> 
    <property name="location" value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/model_parameters/hub4_spanish_itesm.cd_cont_2500"/> 
</component> 

------- THIS IS新信息(2013年10月3日)--------- -

謝謝,但它不是問題。該文件已經是UTF8,並且我已經將JAVA TOOLS OPTION設置爲UTF8,同時運行帶有-Dfile.encoding和任何更改的.jar,我得到相同的列表。這很奇怪,因爲我試圖弄清楚文件中是否是另一個字典列表,但我很無能。這是非常奇怪的,因爲h4.dict是大寫,警告是小寫,還有一些帶有重音的單詞不會出現在警告列表中。我試圖用較少的單詞保存另一個.dict文件,但它不起作用,事實上,更多的單詞出現在警告中。

我不知道是否重要,我沒有使用聲學模型的聲音模型,就像其他演示中使用的.jar一樣,或者如果與根本沒有轉錄或其他錯誤的事實有關係。

我真的很希望任何人都能幫我弄清楚,同時我會更加努力。

上提前感謝

+0

下載中的文件絕對不是utf-8,它在iso8859-15中。 –

+0

就是這樣,我已經克隆了整個目錄,並在iso889-15中對java進行了編碼,並且運行時沒有大的警告列表。它仍然只是行 警告字典詞典缺少我覺得這個警告,因爲由於記錄問題不明音素的字「」 音譯,所以這是一個小問題。如果有人知道擺脫這個錯誤的最佳選擇,非常感謝。 另一方面,非常感謝尼古拉。 – csampez

回答

0

您需要將文件轉換爲UTF-8

您需要使用java選項-Dfile.encoding = UTF-8,使VM認爲所有的輸入文件肯定的java in UTF-8

最重要的是,es_MX_broadcast_cont需要特定的特徵提取器。您需要在配置文件中將DeltasFeatureExtractor替換爲S3FeatureExtractor。否則精度將爲零。

+0

我已更新帖子,非常感謝您的支持。 – csampez