我一直在利用大量不同的語料庫進行自然語言處理,並且我一直在尋找一個已經用Wordnet Word Senses註釋的語料庫。 我知道這個信息可能沒有一個大的語料庫,因爲語料庫需要手動建立起來,但必須有一些事情要做。 此外,如果沒有語料庫存在,是否至少有一個有意義的帶註釋的ngram數據庫(每個詞的定義的時間百分比或每個詞網定義的數字計數取決於如何常識的意思是)?註釋爲共發現
Using an NLTK Conditional Frequency Distribution and the nltk.bigrams function, train a bigram model on the Genesis:
text = nltk.corpus.genesis.words('english-kjv.txt')
bigrams = nltk.bigrams(text)
我有以下代碼可以在movie_review語料庫中打印15個最常見的事件。 import nltk
import random
from nltk.corpus import movie_reviews
documents =[]
for category in movie_reviews.categories():
for fileid in movie_reviews.f