2010-09-30 31 views
0

我打算使用來自this article的n-gram代碼。該算法產生這些三克的結果:N-gram的C#算法

t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d 

文本the quick red

然而wikipedia,估計這應該是:

the qui k_r 
he_ uic _re 
e_q ick red 
_qu ck_ 

(由「_」指示空間)。

什麼是正確的?那裏有沒有其他的C#實現?

回答

2

第二個例子是正確的。

ps。你爲什麼要爲整個文本生成卦,而不僅僅是單詞?你的用例是什麼?

+0

我相信這對於實際上由兩個字符串組成的「單詞」是有用的(即由空格分隔)。如果首先應用分詞器,這將會丟失。 – cs0815 2010-09-30 12:37:44

+0

第二個輸出是正確的。 – Skarab 2010-09-30 17:02:55

2

第一個是正確的。我在論文中使用了字符N-gram。你必須前進,併爲每一步傳遞一個字符。在這種情況下,可以找到類似的詞。