0
我打算使用來自this article的n-gram代碼。該算法產生這些三克的結果:N-gram的C#算法
t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d
文本the quick red
然而wikipedia,估計這應該是:
the qui k_r
he_ uic _re
e_q ick red
_qu ck_
(由「_」指示空間)。
什麼是正確的?那裏有沒有其他的C#實現?
我相信這對於實際上由兩個字符串組成的「單詞」是有用的(即由空格分隔)。如果首先應用分詞器,這將會丟失。 – cs0815 2010-09-30 12:37:44
第二個輸出是正確的。 – Skarab 2010-09-30 17:02:55