我正在嘗試創建一個語音識別系統僧伽羅語語言。我試圖創建一個語言模型,但在Build NEW Acoustic model, Dictionary , Language model for uncommon language speech recognition答案如下。我用在windows.My輸入文件如下兩種在線lmtool和cmuclmtk-0.7-win32的,用於pocketsphinx的僧伽羅語言模型問題
එක eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ pa ha
හය ha iya
හත ha tha
අට ah ta
නවය na wa ya
提交後lmtool和cmuclmtk我得到了輸出如下,
AHTA AE T AH
DEKA D AH K AA
EKA EH K AH
HAIYA HH EY AY AH
HATHA HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA N AO EY AH
PAHA P AE HH AH
THUNA TH UW N AH
à¶…à¶§
à¶à·」à¶±
දෙක
නවය
à¶´à·„
à·„à¶
à·„à¶à¶»
හය
එක
.dic和.lm文件都包含上述字符。我覺得這些都是垃圾人物。我做錯了什麼來得到這個?
錯誤的文件看起來很模糊,就像utf-8使用傳統的8位編碼查看,或者錯誤地將錯誤地指定爲8位編碼的內容重新編碼爲utf-8。如果沒有訪問原始字節,我們無法確定。查看['character-encoding'標記wiki](http://stackoverflow.com/tags/character-encoding/info)瞭解一些背景和診斷提示。 – tripleee