2017-03-09 49 views
1

我有一個超過1000列的巨大數據集。他們中的大多數包含* NaN's *或只是一些值。手動篩選每個色譜柱是不合理的時間浪費。我怎樣才能用一個命令做一個估計列多樣性,最高頻率值等?熊貓:快速瀏覽列值

+6

'pandas.DataFrame.describe()'是大熊貓的文檔的介紹性文字功能很早就:HTTP://pandas.pydata .org/pandas-docs/stable/10min.html正如計算唯一值:http://pandas.pydata.org/pandas-docs/stable/10min.html#histogramming –

+0

你是什麼意思「少」值? 您是否期望離散的重複值或浮點數? – FLab

回答

0

首先,你需要獲得包含哪些單列,這樣就可以使一個for循環這樣的:

column = [array[i] for i in range(0,len(array), STEP] 

其中STEP =列在你的文件的數量

然後,你可以做無論你想要什麼。回答你的問題, 你可以使用,即max(column) - min(column),這將給你多樣性。 要想使共同的價值觀,我建議你看看有:

click

+0

這與dataframe.describe()相比效率很低 –