2
我是NLP的初學者,我很困惑如何使用<s>
和</s>
符號來計算一元模型的計數?我應該數它們還是忽略?如何處理<s>和</s>計算單字LM?
我是NLP的初學者,我很困惑如何使用<s>
和</s>
符號來計算一元模型的計數?我應該數它們還是忽略?如何處理<s>和</s>計算單字LM?
如果我理解正確的是<s>
和</s>
表示特殊(假的)對unigram作爲第一個和最後一個對unigram(實際上,前一和後,最後一個),每個文本,那麼在他們沒有必要對unigram,因爲任何字符串都包含這些unigrams,因此它們不提供其他信息。
這種特殊unigram進行可以在高階的n-gram情況下是有用的:例如,它允許從1個字的字符串中提取等hello
2雙字母組:<s> hello
和hello </s>
或3個卦:<s0> <s1> hello
,<s1> hello </s1>
,hello </s1> </s0>
。