2014-12-02 56 views
1

連字符庫似乎是非常流行和自由的方式來在你的應用中連字符。連字符庫:「連字符」是什麼意思?

連字矢量是什麼意思?

我正在運行附加到庫源代碼的示例。 示例輸出:

hibernate // input word 
030412000 // output hyphenation vector 
hi=ber=nate // hyphen points 
- hi=bernate 
- hiber=nate 

向量中的奇數表示連字點。但是,所有這些價值是什麼意思?

回答

2

LászlóNémeth詳細描述了OpenOffice's documentation中的算法。

該庫使用Frank M.Liang開發的算法(「Word-Hy-phen-a-tion by Com-pu-ter」):在二元詞組,三元組和更長模式中的所有字母都被賦予數字值以指示它是一個'平常'的地方(奇數)或'異常'的地方(偶數)連字符發生。數字越高,重要性越高 - 一個模式幾乎不會在較大的偶數上被破壞,並且幾乎總是在一個更大的奇數上。數字序列在統計上在預先連字的詞彙的語料庫上確定。

請注意,數字是針對之間的兩個字符。更好的符號本來是

h i b e r n a t e 
0 3 0 4 1 2 0 0 (0) 

(其中最後0已過時)。

+0

感謝您的解釋!所以基本上,我應該比'hiber-nate'更頻繁地打斷'hi-bernate'(因爲我們在向量中的第二個字母之後有'3') – fen 2014-12-02 10:09:14

+1

這隻意味着'hi-bernate'和'hiber-nate'是*有效的連字點,而不是一個優於另一個。這些值本身只是統計*每個模式*,並不意味着與同一單詞中的其他模式相關的任何內容。 – usr2564301 2014-12-02 10:20:20

+0

好的,聽起來很合理。 – fen 2014-12-02 10:57:20

相關問題