3天前,我問了一個問題關於建立具有3種語言並行詞典:removing differencies of some text pairs如何建立從雙語詞典一4language字典
的問題是如下: 我有2個文件對由以下特徵:pair1:(File1.txt,File2.txt)pair2:(File3.txt,File4.txt)
這些對中的每個文件之間存在逐行對應關係。說File1.txt和File3.txt是一些英文單詞,File2.txt和File4.txt分別是它們的阿拉伯語和法語翻譯。另外,File1.txt和File3.txt非常相似(在某些情況下也是如此)。
File1.txt File2.txt
EnWord1 ArTrans1
EnWord2 ArTrans2
EnWord3 ArTrans3
Enword4 ArTrans4
File3.txt File4.txt
EnWord1 FrTrans1
EnWord3 FrTrans3
Enword4 FrTrans4
Enword5 FrTrans5
我想要做的話,是對對英語兩側比較,發現同時出現在文件(EnWord1,EnWord3和EnWord4)的常用詞,並篩選出其相應的翻譯。 簡而言之,我可以說使用兩個雙語英語 - 阿拉伯語和英語法語字典,我正在試圖建立一個3語言的英語 - 阿拉伯語 - 法語字典。
史蒂夫回答我,寫了一個漂亮的代碼,找出重複的英語單詞和刪除他人和自己的翻譯:The answer could be found here
但我還是有一點更復雜的問題: 我應該怎麼做,如果我想補充另一種語言?我的意思是我有另一個英語 - 俄語詞典(說File5.txt包含英文實體,File6.txt包含俄羅斯實體),我想建立一個4語言詞典,而不是3語言詞典。
一種方法是使用當前代碼構建3語言詞典,然後通過在新語言對上重新運行它,構建4語言詞典。但我認爲效率不夠高,這將是解決這個問題的更好辦法。它也可能會在其他語言中引入一些不一致的地方。 我的主要挑戰是檢查重複:只有2個語言對時,檢查重複會很容易。但是如果我想檢查3對中的重複,我該怎麼辦? 如何更改代碼以便能夠在一次傳遞中提取4語言詞典?
請注意,由於語義和使用/搭配差異,更不用說成語,短語動詞,俚語等詞語翻譯不起作用。 –
是的亞歷克斯。你是對的。但正如我在前一個問題中提到的,我不想構建翻譯引擎。我想要做的是用3種雙語詞典(英語 - 阿拉伯語,英語 - 法語和英語 - 俄語)編制4語言詞典。使用3種語言的詞典比較容易,因爲檢查重複是比較容易的,但我不知道要檢查英語單詞是否在所有3對中。我必須補充說,這些字典包含短語,成語,甚至短句。 – Hakim