請問如何計算「詞組」的頻率分佈?NLTK詞組分佈的頻率分佈
換句話說,我有一個文本文件。這裏是一個快照:
這裏是我的代碼,以查找在文本文件中的50個最常用的詞:
f=open('myfile.txt','rU')
text=f.read()
text1=text.split()
keywords=nltk.Text(text1)
fdist1=FreqDist(keywords)
fdist1.most_common(50)
在結果中,你可以在鏈接中看到,每個單詞計算。下面是結果的截圖:
它運作良好,但我試圖找到每一行的文本文件的頻率分佈。例如,在第一行中,有一個術語「概念改變」。該程序將「概念」和「更改」計算爲不同的關鍵字。但是,我需要找到術語「概念改變」的頻率分佈。
歡迎堆棧溢出。您可以通過提供一些有關您嘗試過的方式以及卡住的位置的信息來改善您的問題。 – Willem
另外:輸入文件實際上是什麼樣的?顯示幾行。 – alexis
我根據你的建議編輯了我的問題 –