4

我試圖想出一種方法來估算日文翻譯成英文單詞的數量。日語有三個主要腳本 - Kanji,HiraganaKatakana - 每個都有不同的平均字比(漢字最低,片假名最高)。估算日語源英文翻譯單詞數量的算法

實例:

  • 計算機:コンピュータ(片假名 - 6個 字符);計算機(漢字: )鯨(漢字:1個 字符)

隨着數據,我的日語單詞大量詞彙和英語翻譯和一個相當大的語料匹配日本的源文件和他們的英語翻譯。我想提出一個公式來計算源文本中的漢字,平假名和片假名字符的數量,並估計可能會變成的英文單詞的數量。

回答

1

我會從線性近似開始:approx_english_words = a1*no_characters_in_script1 + a2 * no_chars_in_script2 + a3 * no_chars_in_script3,係數a1,a2,a3使用線性最小二乘法根據您的數據進行擬合。

如果這個數字不是很接近,那麼看看最不適合的原因(專業詞彙等)。

0

這似乎很簡單 - 你只需要找出比率。

對於每個腳本,請計算術語表中的腳本字符和英文單詞的數量並計算出比率。

這可以用日文源文檔進行擴充,假設您既可以檢測日文單詞所在的腳本,也可以檢測翻譯中的英文等效短語。否則,您將不得不猜測比率或將其忽略爲源數據,

然後,如您所說,計算源文本每個腳本中的單詞數,進行乘法運算,並且應該有一個粗略估計。

1

好吧,它比一個名詞與英語相比要複雜一些,例如,與英語相比,日語也有不同的語法結構,所以某些句子會在日語中使用更多的單詞,其他會使用LESS字。我不是很懂日語,所以請原諒我以韓語爲例。

在韓語中,一個句子通常比一個英語句子短,主要是因爲通過使用上下文填補缺失的單詞而縮短了它們。例如,說「我愛你」可以和사랑이(「sarangi」,簡單地是動詞「愛」)一樣短,或者只要完全限定語句(我[主題]] [對象]愛[動詞+禮貌修飾語]在文本中,它是如何寫的取決於上下文,通常由段落中的早期句子設置

無論如何,有一個算法來真正知道這種事情會很很困難,所以你可能會更好,只是使用統計數據,你應該做的是使用隨機樣本,其中已知的日文文本和英文文本具有相同的含義。樣本越大(隨機數越大),更好......但是如果它們真的是隨機的,那麼你會有多少人有幾百人沒有太大的差別。現在,另一件事是這個比例將完全改變被翻譯的文本的類型。例如,高度技術性的文件很有可能比一本雜亂的小說具有更高的日文/英文長度比。

至於簡單地使用你的字詞翻譯詞典 - 這可能不會工作得很好(可能是錯誤的)。同一個單詞不會每次都以不同的語言翻譯成同一個單詞(儘管技術討論的可能性更大)。例如,美麗的詞。我不僅可以在韓語中指定多個單詞(即有選擇),但有時我會失去這種選擇,如在句子中(食物很美),我不是指食物的外表好。我的意思是它的口味很好,而且我對這個詞的翻譯選項也會改變。這是一個非常普遍的情況。

另一個大問題是最佳翻譯。一些人類真的很糟糕,以及電腦更糟糕的東西。每當我校對一篇從另一篇文章翻譯成英文的文檔時,我總能看到各種縮短文本的方法。

因此,儘管通過統計數據,您可以計算出翻譯之間的平均長度比例,但這與所有翻譯爲最佳的平均比例大不相同。

3

這裏是Borland公司(現英巴卡迪諾)認爲,關於英語非英語:

Length of English string (in characters)

Expected increase 
1-5  100% 
6-12  80% 
13-20  60% 
21-30  40% 
31-50  20% 
over 50 10% 

我認爲你可以排序的這個(有一些修改)申請日到非日本。

您可能要考慮的另一個因素是語言的語氣。在英語中,說明被視爲必不可少,如「按OK」。但在日語中,命令被認爲是粗魯的,而且你必須在「OKボタンを押しください」中使用敬語(或keigo)指示。

小心三個字母的漢字組合。許多大詞彙轉化爲三字或四字漢字組合,例如國際化(國際化:20個字符),高可用性(高可用性:17個字符)。

+0

我不挑剔,但我想你想知道,押してください不是敬語;這只是禮貌。 – 2008-12-19 13:45:18

+0

@mikemacman,我使用廣義的術語來包含keigo的所有三種模式,包括sonkeigo,kenjogo和teineigo:http://ja.wikipedia.org/wiki/敬語 – 2008-12-22 00:59:59

+0

取決於軟件;我看到很多すること或者像iTunes和Safari這樣的東西只是普通的して。這當然,加上大量的〜させていただきます – 2009-04-09 19:59:59

1

以我作爲翻譯和本地化專家的經驗,一個好的經驗法則是每個英文單詞有2個日文字符。

1

作爲日語和英語的經驗豐富的翻譯員,我可以說這是非常難以量化的,但通常以我的經驗來看,日語翻譯的英語文本幾乎是原文的200%。在日語中有許多文化特定的短語和名詞,不能直接翻譯,需要用英語解釋。 在翻譯時,我不需要單一的日語句子,也不需要爲了將意思傳達給讀者而寫出一個單獨的英文段落。關我這裏的頂部是一個例子:

「懐かしい」

這字面意思是懷舊。但是,在日語中,它可以用作感嘆號中的單個短語。然而,爲了傳達一種懷舊的感覺,我們需要更多的語境。例如,您可能需要將該短語翻譯成一個句子:

「當我走過我的舊小學時,我充滿了過去的回憶。」

這就是爲什麼日語和英語之間的機器翻譯是不可能的。

0

我的(雖然很小)經驗似乎表明,不管語言如何,文本塊都會使用相同數量的打印空間來傳遞相同的信息。因此,對於大量的文本塊,您可以爲英文中的每個字符分配一個寬度計數(從Times New Roman這樣的常用字體中獲取),同樣使用相同磅值的常見日文字體來計算將需要的字符數。