2010-11-18 33 views
1

我想使用Berkeley Aligner進行一些MT研究,因爲很明顯,它很輕易地擊敗了GIZA ++(在一些報告結果中減少了32%的對齊誤差)。大部分Berkeley Aligner「examples」目錄中的輸出看起來像Moses對GIZA ++輸出文件(即配對的對齊詞索引)所做的,但在某些對之後有一些有趣的「-P」。我不能在我的生活中找到任何這些「-P」註釋應該表示的文檔(當然不在Berkeley Aligner「文檔」目錄中)。Berkeley Aligner輸出格式中的「-P」是什麼?

爲了清楚起見,我將舉一個例子。假設你有句:「JeanplâitàMarie」和「Marie likes Jean」。法語是源語言,英語是目標語言。在這兩個句子中,「Jean」(索引0和2,分別)和「Marie」(索引3和0)分別對齊,「plâit」和「à」(法國索引1和2, )與「like」(英文索引1)對齊。在處理摩西 - 後GIZA ++的輸出,這由源 - 目標指數對的列表來表示:

0-2 1-1 2-1 3-0 

伯克利定位儀產生非常類似於此文件,但一些指標對對他們有-P (例如,你可能看到像1-1-P的東西)。

這是什麼意思?我可以安全地刪除這些-P註釋並獲得GIZA ++ - 通過摩西樣式對齊,還是應該做更多的事情(例如,將它們放到一系列對齊的索引對中,或者你有什麼)?

+0

您可以從http://tlt.its.psu.edu/suggestions/international/bylanguage/french.html複製法語口音,或瞭解如何在同一頁面上在Windows上鍵入它們。 – 2010-11-28 17:08:05

+0

這個評論應該是有效的嗎? – Dennis 2010-12-17 03:36:56

+0

爲什麼H-E雙曲棍球棒會在Windows中完成? – Dennis 2010-12-17 03:37:24

回答

1

我不知道很多關於這一點,但我做的代碼搜索:

http://www.google.com/codesearch?hl=en&lr=&q=%22-P%22+package:http://berkeleyaligner .googlecode.com & SBTN =搜索

/** 
    * Writes the sure and proposed alignments in a modified 
    * version of the Pharaoh format. 
    * 
    * For example, if we have 7 sure alignments and two possibles, we get: 
    * 
    * enPos1-frPos1 enPos2-frPos2 ... enPos8-frPos8-P enPos9-frPos9-P 
    * 
    * here, the -P indicates possible alignments. 
    */ 
    public String outputHard() { 
      return dumpModifiedPharaoh(false); 
    } 

好像這些都是「可能」路線。這是因爲您的代碼設置爲以法老(?)格式輸出「硬」對齊。似乎您可以決定使用或轉儲-P顏色,或切換到「軟」輸出,這會爲每對輸出提供強度,然後掃描閾值參數。

相關問題