熊貓：快速瀏覽列值

我有一個超過1000列的巨大數據集。他們中的大多數包含* NaN's *或只是一些值。手動篩選每個色譜柱是不合理的時間浪費。我怎樣才能用一個命令做一個估計列多樣性，最高頻率值等？熊貓：快速瀏覽列值

2017-03-09 Denis Kulagin

'pandas.DataFrame.describe（）'是大熊貓的文檔的介紹性文字功能很早就：HTTP：//pandas.pydata .org/pandas-docs/stable/10min.html正如計算唯一值：http://pandas.pydata.org/pandas-docs/stable/10min.html#histogramming –

你是什麼意思「少」值？您是否期望離散的重複值或浮點數？ – FLab

首先，你需要獲得包含哪些單列，這樣就可以使一個for循環這樣的：

column = [array[i] for i in range(0,len(array), STEP]

其中STEP =列在你的文件的數量

然後，你可以做無論你想要什麼。回答你的問題，你可以使用，即max(column) - min(column)，這將給你多樣性。要想使共同的價值觀，我建議你看看有：

click

來源

2017-03-09 18:01:19 user3622836

這與dataframe.describe（）相比效率很低 –

熊貓：快速瀏覽列值

回答

相關問題