我的數據列表中。統計列表中單詞的頻率並刪除不受歡迎的單詞
data = [['Biz_Innovations', '#socialmedia'],
['ChantalGrange', '#aws'],
['beyonddevops', '#aws'],
['beyonddevops', '#socialmedia'],
['IBMNetezza', '#ibm'],
['IBMNetezza', '#analytics'],
['SandraFeinsmith', '#ibm'],
['SandraFeinsmith', '#analytics'],
['fleejack', '#healhcare'],
['bigdataweek', '#socialmedia'],
['sabumjung', '#aws']]
我想計算單詞的頻率在所述第二列(例如,#socialmedia,#aws),然後選擇基於所述該頻率上的行。如果該單詞在數據集中出現三次或更多,我想保留相應的行(並刪除其他行)。所以結果看起來像這樣:
data = [['Biz_Innovations', '#socialmedia'],
['ChantalGrange', '#aws'],
['beyonddevops', '#aws'],
['beyonddevops', '#socialmedia'],
['bigdataweek', '#socialmedia'],
['sabumjung', '#aws']]
有什麼建議嗎?
'collections.Counter(圖(operator.itemgetter(1),數據))'會幫助你很多。 – ozgur
@RobWatts更新。 – ozgur