在NLTK,你可以很容易地計算的話計數文本,比方說,通過做NLTK FreqDist,繪製標準化計數?
from nltk.probability import FreqDist
fd = FreqDist([word for word in text.split()])
,其中文本是一個字符串。 現在,你可以繪製分佈
fd.plot()
,這將讓你與計數每個字一個很好的線圖。在docs中沒有提到繪製實際頻率的方法,您可以在fd.freq(x)
中看到。
繪製標準化計數的任何直接方法,不需要將數據轉化爲其他數據結構,分別標準化和繪圖?
謝謝。太糟糕了,它沒有plot()方法來顯示FreqDist所做的一個繪圖。另外,FreqDist已經有了一個'freq'方法,可以進行標準化,但這並不能解決我直接從對象繪圖的問題。 –
繪製概率可能沒有意義,在這種情況下,您的x軸和y軸是什麼? – alvas
而不是計數我想要發生的頻率,就這些。有意義的是,我想知道語料庫中單詞的份額是多少。我明白語言學中的「頻率」這個詞是用來表示計數的,但我想這個比例。 –