我目前正在開發短西班牙語(MX)採訪(長度~2分鐘)的音頻抄寫器。我一直在網上衝浪,但找不到這個,可能太簡單了:/。在運行.jar時,我從es_MX_broadcast ... voxforge軟件包中得到了這個警告(我假設)所有帶有重音的單詞都在/etc/h4.dict中,並且根本沒有任何轉錄或其他錯誤。使用Sphinx4和es_MX_broadcast_cont_2500
...
WARNING dictionary The dictionary is missing a phonetic transcription for the word 'kyrgyzst�'
'WARNING dictionary The dictionary is missing a phonetic transcription for the word 'explotaci�'
WARNING dictionary The dictionary is missing a phonetic transcription for the word 'inclu�'
...
我的線索是,也許有與文本編碼器的一些配置問題,但也許我需要創建LANGUAG e模型。我真的想訓練它,但首先我需要它的工作。下面是config.xml文件的語言學家/字典/ language_model/acoustic_model部分
<component name="lexTreeLinguist"
type="edu.cmu.sphinx.linguist.lextree.LexTreeLinguist">
<property name="logMath" value="logMath"/>
<property name="acousticModel" value="wsj"/>
<property name="languageModel" value="trigramModel"/>
<property name="dictionary" value="dictionary"/>
<property name="addFillerWords" value="false"/>
<property name="fillerInsertionProbability" value="1E-10"/>
<property name="generateUnitStates" value="false"/>
<property name="wantUnigramSmear" value="true"/>
<property name="unigramSmearWeight" value="1"/>
<property name="wordInsertionProbability"
value="${wordInsertionProbability}"/>
<property name="silenceInsertionProbability"
value="${silenceInsertionProbability}"/>
<property name="languageWeight" value="${languageWeight}"/>
<property name="unitManager" value="unitManager"/>
</component>
<component name="dictionary"
type="edu.cmu.sphinx.linguist.dictionary.FastDictionary">
<property name="dictionaryPath"
value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/etc/h4.dict"/>
<property name="fillerPath"
value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/etc/filler.dict"/>
<property name="addSilEndingPronunciation" value="false"/>
<property name="wordReplacement" value="<sil>"/>
<property name="unitManager" value="unitManager"/>
</component>
<component name="trigramModel"
type="edu.cmu.sphinx.linguist.language.ngram.large.LargeTrigramModel">
<property name="unigramWeight" value=".7"/>
<property name="maxDepth" value="3"/>
<property name="logMath" value="logMath"/>
<property name="dictionary" value="dictionary"/>
<property name="location"
value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/etc/H4.arpa.Z.DMP"/>
</component>
<component name="wsj"
type="edu.cmu.sphinx.linguist.acoustic.tiedstate.TiedStateAcousticModel">
<property name="loader" value="wsjLoader"/>
<property name="unitManager" value="unitManager"/>
</component>
<component name="wsjLoader" type="edu.cmu.sphinx.linguist.acoustic.tiedstate.Sphinx3Loader">
<property name="logMath" value="logMath"/>
<property name="unitManager" value="unitManager"/>
<property name="location" value="/home/csampez/Desktop/JavaDev/Sphinx/sphinx4/models/acoustic/es_MX_broadcast_cont_2500/model_parameters/hub4_spanish_itesm.cd_cont_2500"/>
</component>
------- THIS IS新信息(2013年10月3日)--------- -
謝謝,但它不是問題。該文件已經是UTF8,並且我已經將JAVA TOOLS OPTION設置爲UTF8,同時運行帶有-Dfile.encoding和任何更改的.jar,我得到相同的列表。這很奇怪,因爲我試圖弄清楚文件中是否是另一個字典列表,但我很無能。這是非常奇怪的,因爲h4.dict是大寫,警告是小寫,還有一些帶有重音的單詞不會出現在警告列表中。我試圖用較少的單詞保存另一個.dict文件,但它不起作用,事實上,更多的單詞出現在警告中。
我不知道是否重要,我沒有使用聲學模型的聲音模型,就像其他演示中使用的.jar一樣,或者如果與根本沒有轉錄或其他錯誤的事實有關係。
我真的很希望任何人都能幫我弄清楚,同時我會更加努力。
上提前感謝
下載中的文件絕對不是utf-8,它在iso8859-15中。 –
就是這樣,我已經克隆了整個目錄,並在iso889-15中對java進行了編碼,並且運行時沒有大的警告列表。它仍然只是行 警告字典詞典缺少我覺得這個警告,因爲由於記錄問題不明音素的字「」 音譯,所以這是一個小問題。如果有人知道擺脫這個錯誤的最佳選擇,非常感謝。 另一方面,非常感謝尼古拉。 –
csampez