我是新的在nltk圖書館,我試圖教我的分類器一些標籤與我自己的語料庫。 爲此,我有IOB標籤像這樣的文件:由 self.classifier = nltk.MaxentClassifier.train(train_set, algorithm='megam', trace=0)
How O
do B-MYTag
you I-MYTag
know O
, O
where B-MYTag
我對那些希望推廣到更大人羣的樣本進行大量工作。但是,大多數時候樣本都有偏差,需要用survey包進行加權。但是,我還沒有找到一種方法來對這些權重的術語文檔矩陣加權。考慮這個例子 library(tm)
library(wordcloud)
set.seed(123)
# Consider this example: I have performed a sample from a pop