http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/comment-page-1/#comment-73511如何在NLTK中找到可能性
我想了解使用此鏈接的NLTK。我無法理解如何計算feature_probdist和show_most_informative_features的值。
只有當單詞「最好」沒有出現可能性如何計算爲0.077時。我很早就試過
http://www.laurentluce.com/posts/twitter-sentiment-analysis-using-python-and-nltk/comment-page-1/#comment-73511如何在NLTK中找到可能性
我想了解使用此鏈接的NLTK。我無法理解如何計算feature_probdist和show_most_informative_features的值。
只有當單詞「最好」沒有出現可能性如何計算爲0.077時。我很早就試過
這是因爲它是從NLTK的源代碼解釋代碼,但沒有顯示所有的代碼。 full code is available on NLTK's website(並且鏈接到您參考的文章中)。這些是分別在the NaiveBayesClassifier class within NLTK的方法和方法中的一個領域。這門課當然使用Naive Bayes classifier,這實質上是對Bayes Theorum的一個修改,並且假設每個事件都是獨立的。
feature_probdist
=「P(FNAME = FVAL |標籤),對特徵量的概率分佈,給定標籤它表示爲一個字典的鍵是(標籤,FNAME)對和其值ProbDistIs結束。 (fname = fval | label)= feature_probdist [label,fname] .prob(fval)如果給定的(label,fname)不是feature_probdist中的鍵,則假定相應的P對於fval的所有值,fname = fval | label)爲0。「爲了該功能的目的,特徵(fname,fval)的信息性等於P(fname = fname)的最高值,因此, FVAL |標籤),對於任何標籤,通過P(FNAME = FVAL的最低值除以|標籤),對於任何標籤:」
max[ P(fname=fval|label1)/P(fname=fval|label2) ]
退房the source code for the entire class如果這還不清楚,文章的目的並不是要分解NLTK如何在底層進行深入研究,而只是給出如何使用NLTK的基本概念。