Berkeley Aligner輸出格式中的「-P」是什麼？

我想使用Berkeley Aligner進行一些MT研究，因爲很明顯，它很輕易地擊敗了GIZA ++（在一些報告結果中減少了32％的對齊誤差）。大部分Berkeley Aligner「examples」目錄中的輸出看起來像Moses對GIZA ++輸出文件（即配對的對齊詞索引）所做的，但在某些對之後有一些有趣的「-P」。我不能在我的生活中找到任何這些「-P」註釋應該表示的文檔（當然不在Berkeley Aligner「文檔」目錄中）。Berkeley Aligner輸出格式中的「-P」是什麼？

爲了清楚起見，我將舉一個例子。假設你有句：「JeanplâitàMarie」和「Marie likes Jean」。法語是源語言，英語是目標語言。在這兩個句子中，「Jean」（索引0和2，分別）和「Marie」（索引3和0）分別對齊，「plâit」和「à」（法國索引1和2，）與「like」（英文索引1）對齊。在處理摩西 - 後GIZA ++的輸出，這由源 - 目標指數對的列表來表示：

0-2 1-1 2-1 3-0

伯克利定位儀產生非常類似於此文件，但一些指標對對他們有-P （例如，你可能看到像1-1-P的東西）。

這是什麼意思？我可以安全地刪除這些-P註釋並獲得GIZA ++ - 通過摩西樣式對齊，還是應該做更多的事情（例如，將它們放到一系列對齊的索引對中，或者你有什麼）？

來源

2010-11-18 Dennis

您可以從http://tlt.its.psu.edu/suggestions/international/bylanguage/french.html複製法語口音，或瞭解如何在同一頁面上在Windows上鍵入它們。 – 2010-11-28 17:08:05

這個評論應該是有效的嗎？ – Dennis 2010-12-17 03:36:56

爲什麼H-E雙曲棍球棒會在Windows中完成？ – Dennis 2010-12-17 03:37:24

我不知道很多關於這一點，但我做的代碼搜索：

http://www.google.com/codesearch?hl=en&lr=&q=%22-P%22+package:http://berkeleyaligner .googlecode.com & SBTN =搜索

/** 
    * Writes the sure and proposed alignments in a modified 
    * version of the Pharaoh format. 
    * 
    * For example, if we have 7 sure alignments and two possibles, we get: 
    * 
    * enPos1-frPos1 enPos2-frPos2 ... enPos8-frPos8-P enPos9-frPos9-P 
    * 
    * here, the -P indicates possible alignments. 
    */ 
    public String outputHard() { 
      return dumpModifiedPharaoh(false); 
    }

好像這些都是「可能」路線。這是因爲您的代碼設置爲以法老（？）格式輸出「硬」對齊。似乎您可以決定使用或轉儲-P顏色，或切換到「軟」輸出，這會爲每對輸出提供強度，然後掃描閾值參數。

來源

2010-11-18 18:24:26 Stompchicken

Berkeley Aligner輸出格式中的「-P」是什麼？

回答

相關問題