2011-04-22 55 views
17

「自述」文件中的網址無效(http://www.fjoch.com/mkcls.htmlhttp://www.fjoch.com/GIZA++.html)。有關於giza ++的好教程嗎?還是有一些替代品有完整的文件?有沒有關於giza ++的教程?

+0

第二個鏈接是死的。問題有些爭議(什麼是「好」教程?)。你應該在它關閉之前嘗試改進它。 – 0xC0000022L 2011-04-22 03:55:56

+0

這兩個鏈接都死了... – alvas 2014-07-07 12:44:05

+0

請參閱http://stackoverflow.com/questions/21955792/is-there-a-proper-installation-guide-for-giza-on-ubuntu/43274827#43274827 – alvas 2017-04-07 09:43:11

回答

36

下面是來自一個教程中,我一類放在一起摘錄。當我有更多的東西時,我會發佈一個鏈接。 (注意:這裏假設你已經成功安裝了GIZA ++ - 在* nix系統V2)。


1)含並行句子兩個數據文件開始,每行一個句子。例如,一對平行的英法文件可能如下所示。

樣品1 - train.en

I gave him the book . 
He read the book . 
He loved the book . 

樣品2 - train.fr

Je lui ai donne/ le livre . 
Il a lu le livre . 
Il aimait le livre . 

2)通過plain2snt.out運行這些文件來獲得目標和源詞彙文件(.vcb )以及句對文件( .snt)。

從GIZA ++目錄中,運行:

./plain2snt.out TEXT1 TEXT2 

其中TEXT1和TEXT2是在步驟1所述。

這產生在相同的目錄中TEXT1和TEXT2四個文件(假定它們的數據文件在同一個目錄下):

  • TEXT1_TEXT2.snt
  • TEXT1.vcb
  • TEXT2_TEXT1.snt
  • TEXT2.vcb

的翻譯文件包含在文本的每個詞的唯一(整數)ID(NB:未標記化/ lemmatized),字/串,和數字該字符串發生的次數。這些由一個空格字符分隔。

句子文件包含數字。對於每個句對,有三行:第一行是語料庫中句對出現次數的計數,第二和第三行是一串(空格分隔)數字,對應於vocab文件。基於* .snt文件的命名約定,第一個文件被假定爲源文件,第二個文件被假定爲目標語言。例如,在文件TEXT1_TEXT2.snt中,第一行將是語料庫中第一個句對出現次數的計數,第二行將是與TEXT1.vcb文件中的單詞對應的一串數字,並且第三行將是與TEXT2.vcb文件中的單詞對應的一串數字。

(注意:這種格式的樣本在http://code.google.com/p/giza-pp/issues/attachmentText?id=8&aid=697742396599277757&name=README-rst&token=40fba3d449abc12366b98b04cfe7dbc1。)

3)現在可以使用TEXT1.vcb,TEXT2.vcb和兩個* .snt文件中的任意一個作爲GIZA ++的輸入來生成對齊。

例如:

./GIZA++ -s TEXT1.vcb -t TEXT2.vcb -c TEXT1_TEXT2.snt 

但需要注意的是,當我試圖運行此,我不得不TEXT1_TEXT2.snt沒有名稱的下劃線,以獲得適當的任何輸出重命名爲。

+1

感謝您的這麼長時間和完整的答案!:) – 2011-05-09 07:25:25

+11

如果您有類似的錯誤:「錯誤:沒有共存文件給出!「, 您應該生成一個包含」snt2cooc.out train.en.vcb train.fr.vcb corpus.snt> cooc.cooc「的coocurrence文件,然後運行」GIZA ++ -S train.en.vcb -T train.fr .vcb -C corpus.snt -CoocurrenceFile cooc.cooc「 – 2013-12-04 01:09:38

1
相關問題