我正在對我的文本語料庫進行bigram分析。我的特徵向量是一組預定義的bigram和unigram令牌。Bigram分析和術語文檔矩陣
特徵向量 =(地理位置好,壞的經驗,乾淨,友善,整潔,優良的,美麗的地方)
我的文字:位置好,但不友好的工作人員。
清理文字:位置好不友好的工作人員。
我使用上面的字典和清理文本創建了一個tdf,但「位置好」的bigram沒有給出「1」。 但是,當我將清理後的文本更改爲「位置不友好的員工」時。 在雙語分析中,單詞的順序很重要,爲什麼?或者我搞砸了代碼?請澄清
「糟糕的經歷」,「整潔」,「清潔」「好位置」,「優秀」,「美麗」,「地方」「不友好」
0 0 0 0 0 0 1 - 位置不錯,但工作人員不友好。
0 0 0 1 0 0 1 - 地理位置好,但工作人員不友好。
它應該依賴於你使用的是什麼模型,但通常,這些單詞的順序很重要。 – Aramis7d
謝謝阿拉米斯..我用樸素的貝葉斯bernoulli文件模型 – Vinds