我想有例如無序二元語法:「貓坐在墊子上」是否有可能有無序的雙字母組在countvectorizer
[("cat","the"),("cat","sat"),("on","sat"),("on","the"),("mat","the")]
每個兩字是按字母順序排列 - 這意味着,例如,「爲了安置」將給予[("house", "to"),("house","to")]
,這將爲這些bigrams提供更高的頻率,同時最小化搜索空間。
我能夠獲得使用上述:
unordered_bigrams = [tuple(sorted(n)) for n in list(nltk.bigrams(words))]
但我現在想對這些一「袋的字」型載體。使用
我已下令兩字特徵向量:
o_bigram_vectorizer = CountVectorizer(ngram_range=(2, 2))
所以想爲我的無序二元語法一樣......我掙扎找到CountVectorizer一個選項,可以給我這個處理選項(我看的詞彙和預處理沒有多少運氣)
您好,我有這個已經 - 我更關心將這些bigrams轉換爲特徵向量,例如[[0,1,1,2,1,...],[]]可用於分類模型 – charlotte75