Bigram分析和術語文檔矩陣

我正在對我的文本語料庫進行bigram分析。我的特徵向量是一組預定義的bigram和unigram令牌。Bigram分析和術語文檔矩陣

特徵向量 =（地理位置好，壞的經驗，乾淨，友善，整潔，優良的，美麗的地方）

我的文字：位置好，但不友好的工作人員。

清理文字：位置好不友好的工作人員。

我使用上面的字典和清理文本創建了一個tdf，但「位置好」的bigram沒有給出「1」。但是，當我將清理後的文本更改爲「位置不友好的員工」時。在雙語分析中，單詞的順序很重要，爲什麼？或者我搞砸了代碼？請澄清

「糟糕的經歷」，「整潔」，「清潔」「好位置」，「優秀」，「美麗」，「地方」「不友好」

0 0 0 0 0 0 1 - 位置不錯，但工作人員不友好。

0 0 0 1 0 0 1 - 地理位置好，但工作人員不友好。

2017-04-17 Vinds

它應該依賴於你使用的是什麼模型，但通常，這些單詞的順序很重要。 – Aramis7d

謝謝阿拉米斯..我用樸素的貝葉斯bernoulli文件模型 – Vinds

就我的經驗而言，n-gram中的單詞順序至關重要。你不會想把「普京襲擊」的n-gram和「攻擊普京」的n-grams看成是一樣的，因爲它們有着非常不同的語境意義。

所以，不，你沒有搞亂代碼。你可能想對n-gram模型做更多的研究。一個好的開始可能與Chapter 4 in Speech and Language Processing by Jurafsky and Martin

2017-04-17 05:38:59 Grr

是的，我們正確的Grr，感謝您的澄清 – Vinds

回答