2017-04-17 110 views
0

我正在對我的文本語料庫進行bigram分析。我的特徵向量是一組預定義的bigram和unigram令牌。Bigram分析和術語文檔矩陣

特徵向量 =(地理位置好,壞的經驗,乾淨,友善,整潔,優良的,美麗的地方)

我的文字:位置好,但不友好的工作人員。

清理文字:位置好不友好的工作人員。

我使用上面的字典和清理文本創建了一個tdf,但「位置好」的bigram沒有給出「1」。 但是,當我將清理後的文本更改爲「位置不友好的員工」時。 在雙語分析中,單詞的順序很重要,爲什麼?或者我搞砸了代碼?請澄清

「糟糕的經歷」,「整潔」,「清潔」「好位置」,「優秀」,「美麗」,「地方」「不友好」

0 0 0 0 0 0 1 - 位置不錯,但工作人員不友好。

0 0 0 1 0 0 1 - 地理位置好,但工作人員不友好。

+0

它應該依賴於你使用的是什麼模型,但通常,這些單詞的順序很重要。 – Aramis7d

+0

謝謝阿拉米斯..我用樸素的貝葉斯bernoulli文件模型 – Vinds

回答

0

就我的經驗而言,n-gram中的單詞順序至關重要。你不會想把「普京襲擊」的n-gram和「攻擊普京」的n-grams看成是一樣的,因爲它們有着非常不同的語境意義。

所以,不,你沒有搞亂代碼。你可能想對n-gram模型做更多的研究。一個好的開始可能與Chapter 4 in Speech and Language Processing by Jurafsky and Martin

+0

是的,我們正確的Grr,感謝您的澄清 – Vinds