我正在爲我的翻譯系統使用moses工具包。我使用阿薩姆語和英語平行語料庫並訓練它們。但是一些專有名詞沒有被翻譯。這是因爲我有一個非常小的語料庫(並行數據集)。所以我想在我的翻譯系統中使用音譯過程。需要拆分Unicode字符串
我使用這個命令進行翻譯:echo'কানাদাএখনবিশালদেশ。'| 〜/ mymoses/bin/moses -f〜/ work/mert-work/moses.ini
這給了我輸出「কানাদা是一個廣大的國家」。
這是因爲單詞「কানাদা」不在我的平行語料庫中。
因此,我在阿薩姆語和英語中採用了一些平行的單詞列表,並且逐個字符地打破每個單詞。因此,兩個文件的每一行都會有一個單詞,每個字符(或每個音節)之間留有空格。我已經使用這兩個文件來訓練系統作爲正常的翻譯任務
然後,我使用以下命令echo'কানাদাএখনএখনবিশললদেশ。'| 〜/ mymoses/bin/moses -f〜/ work/mert-work/moses.ini | ./space.pl
這給我的輸出「কানাদা是一個幅員遼闊的國家」
我必須打破這個詞,因爲我已經訓練系統字符明智..
然後我使用了我使用命令訓練過的音譯系統:
echo'কানাদাএখনবিশালদেশ。'| 〜/ mymoses/bin/moses -f〜/ work/mert-work/moses.ini | ./space.pl | 〜/ mymoses /斌/摩西-f〜/ WORK1 /火車/模型/ moses.ini
這給我的輸出 「加拿大是一個幅員遼闊的國家」
的字符爲transliterated..but唯一的問題是單詞之間的空格。因此,我想使用將加入單詞的perl文件。我的最終命令將是
echo'কানাদাএখনবিশালদেশ。'| 〜/ mymoses/bin/moses -f〜/ work/mert-work/moses.ini | ./space.pl | 〜/ mymoses/bin/moses -f〜/ work1/train/model/moses.ini | ./join.pl
幫我看看這個「join.pl」文件。
如果您告訴我們_如果您想分割阿薩姆語單詞,它可能會有所幫助。我懷疑你可能在這裏有[X/Y問題](http://meta.stackexchange.com/questions/66377/what-is-the-xy-problem)。在下面的評論之一中,你提到你想要音譯音符:如果是這樣,你可能會更好地詢問(在單獨的問題中)做一個方法去做_that_。 –