如何處理<s>和</s>計算單字LM？

我是NLP的初學者，我很困惑如何使用<s>和</s>符號來計算一元模型的計數？我應該數它們還是忽略？如何處理<s>和</s>計算單字LM？

2015-04-22 user3070752

如果我理解正確的是<s>和</s>表示特殊（假的）對unigram作爲第一個和最後一個對unigram（實際上，前一和後，最後一個），每個文本，那麼在他們沒有必要對unigram，因爲任何字符串都包含這些unigrams，因此它們不提供其他信息。

這種特殊unigram進行可以在高階的n-gram情況下是有用的：例如，它允許從1個字的字符串中提取等hello 2雙字母組：<s> hello和hello </s>或3個卦：<s0> <s1> hello，<s1> hello </s1>，hello </s1> </s0> 。

來源

2015-04-22 18:29:16

如何處理<s>和</s>計算單字LM？

回答

相關問題