0
我以一個字符串,令牌化它,想看看最常見的雙字母組,這裏是我有:訪問元素的n-gram
import nltk
import collections
from nltk import ngrams
someString="this is some text. this is some more test. this is even more text."
tokens=nltk.word_tokenize(someString)
tokens=[token.lower() for token in tokens if len()>1]
bigram=ngrams(tokens,2)
aCounter=collections.Counter(bigram)
如果我:
print(aCounter)
然後它會以排序順序輸出bigrams。
for element in aCounter:
print(element)
將打印元素,但不打印數量,也不打印數量。我想做一個for循環,在那裏我打印出文本中的X最常見的bigrams。
我基本上試圖同時學習Python和nltk,所以這可能是爲什麼我在這裏掙扎(我認爲這是一件微不足道的事情)。