我想使用Berkeley Aligner進行一些MT研究,因爲很明顯,它很輕易地擊敗了GIZA ++(在一些報告結果中減少了32%的對齊誤差)。大部分Berkeley Aligner「examples」目錄中的輸出看起來像Moses對GIZA ++輸出文件(即配對的對齊詞索引)所做的,但在某些對之後有一些有趣的「-P」。我不能在我的生活中找到任何這些「-P」註釋應該表示的文檔(當然不在Berkeley Aligner「文檔」目錄中)。Berkeley Aligner輸出格式中的「-P」是什麼?
爲了清楚起見,我將舉一個例子。假設你有句:「JeanplâitàMarie」和「Marie likes Jean」。法語是源語言,英語是目標語言。在這兩個句子中,「Jean」(索引0和2,分別)和「Marie」(索引3和0)分別對齊,「plâit」和「à」(法國索引1和2, )與「like」(英文索引1)對齊。在處理摩西 - 後GIZA ++的輸出,這由源 - 目標指數對的列表來表示:
0-2 1-1 2-1 3-0
伯克利定位儀產生非常類似於此文件,但一些指標對對他們有-P (例如,你可能看到像1-1-P的東西)。
這是什麼意思?我可以安全地刪除這些-P註釋並獲得GIZA ++ - 通過摩西樣式對齊,還是應該做更多的事情(例如,將它們放到一系列對齊的索引對中,或者你有什麼)?
您可以從http://tlt.its.psu.edu/suggestions/international/bylanguage/french.html複製法語口音,或瞭解如何在同一頁面上在Windows上鍵入它們。 – 2010-11-28 17:08:05
這個評論應該是有效的嗎? – Dennis 2010-12-17 03:36:56
爲什麼H-E雙曲棍球棒會在Windows中完成? – Dennis 2010-12-17 03:37:24