循環我有這樣的數據:的Python對於數據(CSV)
這使向下繼續。
如何找到使用python代碼的前20個最常見的平臺?
我真的迷路了。我想可能是通過for循環列表並計算每個列表?看上去是錯的,但..
循環我有這樣的數據:的Python對於數據(CSV)
這使向下繼續。
如何找到使用python代碼的前20個最常見的平臺?
我真的迷路了。我想可能是通過for循環列表並計算每個列表?看上去是錯的,但..
使用熊貓:http://pandas.pydata.org/
類似:
import pandas as pd
df = pd.read_csv("your_csv_file.csv")
top_platforms = df.nlargest(20, "Score")["Platform"]
字典將是一個不錯的選擇,收集這樣的信息:
初始化一個空字典。
對於CSV文件的每一行:
完成後,按照計數值對字典進行排序並打印前20個條目。
我會用大熊貓CSV文件
import pandas as pd
from collection import Counter
df = pd.read_csv('DATA.csv') # read the csv file into a dataframe *df*
# create counter object containing dictionary
# invoke the pandas groupby and count methods
d = Counter(dict(df.groupby(['Platform'])['Platform'].count()))
d
閱讀會「包含」形式的字典一個計數器對象{<platform>:<number of counts in dataset>}
你可以得到頂k
最常見的平臺如下:
k = 20
d.most_common(k)
>>> [('<platform1>', count1),
('<platform2>', count2),
('<platform3>', count3),
('<platform4>', count4),
....
希望有所幫助。在將來,最好看到數據的頭部(前幾行),或者到目前爲止您嘗試過的代碼......甚至是您使用的數據糾纏工具!