0
我有一些由他們的bigrams代表的列表,以及他們每次發生多少次。 bigrams來自於獨特的bigrams的詞彙。我想在這個如何在計數器上使用SklearnClassifier
使用SklearnClassifier(SVC)迄今爲止我所做的代碼:
train_ngrams = [(train_filtered_tweets[i], train_filtered_tweets[i + 1]) for
i in range(len(train_filtered_tweets) - 1)]
print "Tweets from train set as bigrams", Counter(train_ngrams)
classif = SklearnClassifier(BernoulliNB()).train(train_ngrams)
classify = SklearnClassifier(SVC(), sparse=False).train(Counter(train_ngrams))
print classify
但我得到的錯誤:
AttributeError: 'str' object has no attribute 'iteritems'
我認爲這是因爲我的train_ngrams不是特徵矢量,但我不知道如何製作它。
我試過使用這個,但我得到的只是一個沒有回報?你知道這是爲什麼嗎? – MyTivoli
你的語料庫是推文列表。例如。 '語料庫= [「我們之間的獨角獸獨角獸」,「這是鳴叫二」,「鳴叫三是積極的情緒!」]?另外,如果您正在查看推文,最好使用[TweetTokenizer](http://www.nltk.org/api/nltk.tokenize.html#nltk.tokenize.casual.TweetTokenizer) –
數據集只是很多推文,我試圖在數據上使用分類器,看起來像這樣; [('1','hello'),('hello','said'),('said','someone'),('someone','country'),('country','fasting') ]('''',''''),('''''',''''),('''''''''''','''''''') ')] – MyTivoli