我只是想知道什麼是該計算的最佳方法。讓我們假設我有一個輸入數組和邊界數組 - 我想計算/ bucketize頻率分佈的每個分區在邊界數組中。 使用桶搜索是個好主意嗎? 其實我發現這個問題Calculating frequency distribution of a collection with .Net/C# 但我不知道如何使用爲目的的桶引起每個桶的大小,可以在我的情況不同。 編輯: 畢竟討論我
我有一個小程序,它使用NLTK來獲取相當大的數據集的頻率分佈。問題是,幾百萬字後,我開始吃掉我係統中的所有RAM。這就是我認爲是的代碼中的相關行: freq_distribution = nltk.FreqDist(filtered_words) # get the frequency distribution of all the words
top_words = freq_distr