2015-06-30 89 views
0

我正在嘗試創建一個語音識別系統僧伽羅語語言。我試圖創建一個語言模型,但在Build NEW Acoustic model, Dictionary , Language model for uncommon language speech recognition答案如下。我用在windows.My輸入文件如下兩種在線lmtool和cmuclmtk-0.7-win32的,用於pocketsphinx的僧伽羅語言模型問題

එක eka 
දෙක de ka 
තුන thu na 
හතර ha tha ra 
පහ pa ha 
හය ha iya 
හත ha tha 
අට ah ta 
නවය na wa ya 

提交後lmtool和cmuclmtk我得到了輸出如下,

AHTA AE T AH 
DEKA D AH K AA 
EKA EH K AH 
HAIYA HH EY AY AH 
HATHA HH AE TH AH 
HATHARA HH AE TH AH R AH 
NAWAYA N AO EY AH 
PAHA P AE HH AH 
THUNA TH UW N AH 
à¶…à¶§ 
à¶­à·」à¶± 
දෙක 
නවය 
à¶´à·„ 
à·„à¶­ 
à·„à¶­à¶» 
හය 
එක 

.dic和.lm文件都包含上述字符。我覺得這些都是垃圾人物。我做錯了什麼來得到這個?

+0

錯誤的文件看起來很模糊,就像utf-8使用傳統的8位編碼查看,或者錯誤地將錯誤地指定爲8位編碼的內容重新編碼爲utf-8。如果沒有訪問原始字節,我們無法確定。查看['character-encoding'標記wiki](http://stackoverflow.com/tags/character-encoding/info)瞭解一些背景和診斷提示。 – tripleee

回答

0

你什麼都做錯了。

對於語料庫構建,您需要一個文本文件,而不是一個字典文件。你分別創建字典。

你不應該在你的語言中使用在線lmtool。它僅適用於英語。

要從文本中訓練語言模型,您應該使用srilm。

+0

我以文本格式使用SRILM和語言文件,但結果仍然相同。我遵循thi教程http://www.cs.brandeis.edu/~cs114/CS114_docs/SRILM_Tutorial_20080512.pdf它適用於中文。爲什麼我得到那些垃圾角色?他們在我的電腦中有沒有FONT的問題?或者不是SRILM支持sinhala語言? – dab1984

+0

你可以分享你的文件,所以我可以看看。沒有文件很難幫助你。 –

+0

我用來創建LM的文本文件:http://s000.tinyupload.com/?file_id=34268100379759743452 SRILM生成的文件:http://s000.tinyupload.com/?file_id=43528215708733597235我在Cygwin中使用的命令:./ ngram-count -text sinhala.txt -order 3 -write NPFEOT0001.count -unk 我的操作系統win8.1 64位 – dab1984