我有一個表像下面:計數詞的頻率在大熊貓數據幀
URN Firm_Name
0 104472 R.X. Yah & Co
1 104873 Big Building Society
2 109986 St James's Society
3 114058 The Kensington Society Ltd
4 113438 MMV Oil Associates Ltd
而且我想算Firm_Name列中的所有單詞的頻率,以獲得一個輸出象下面這樣:
我曾嘗試下面的代碼:
import pandas as pd
import nltk
data = pd.read_csv("X:\Firm_Data.csv")
top_N = 20
word_dist = nltk.FreqDist(data['Firm_Name'])
print('All frequencies')
print('='*60)
rslt=pd.DataFrame(word_dist.most_common(top_N),columns=['Word','Frequency'])
print(rslt)
print ('='*60)
但是,以下代碼不會生成唯一的字數。
我一定會接受你的答案。我正在等待,以便爲開放答案方面提供幫助。 – piRSquared
'.split(expand = True).stack()'對於小數據來說是一個非常聰明的選擇,但它會在任何大小的數據上快速耗盡內存。由於它爲'Firm_Name'中的每個唯一字詞擴展了一個矩陣,因此數據稀疏性會在沒有很多觀察的情況下爆炸矩陣列。 –