2017-08-30 39 views
0

我是熊貓新手。我已經使用pandas.read_csv加載了csv。我試圖不指定dtype,但它太慢了。由於它是一個非常大的文件,我還指定了數據類型。但是,有時在數字列中,它包含「NA」。我用過na_values = ['NA'],會影響我的數據框嗎?我仍然想保留這些行。我的問題是如果我指定數據類型並添加na_values = ['NA'],NA會被拋棄嗎?如果是的話,我怎麼能保持相似的過程時間而不會失去這些na?非常感謝你!在熊貓數據框中讀取時將「NA」條目解析爲NaN值

+0

加載數據集時,「NA」將被解析爲'NaN'('np.nan')。 –

+1

你無法自己測試這個嗎? –

+0

我後來做了一個isnull檢查,沒有找到任何。所以我很困惑。我會再試一次。 – user3062229

回答

2

從文檔:

na_values:標量,strlist狀,或dict,默認None

附加 字符串識別爲NA/NaN。如果dict通過,則具體每列NA 值。默認情況下,以下值被解釋爲NaN:'', ... 'NA',...`。

大膽重視我的。這些值不會被丟棄,而是被轉換爲NaN。熊貓足夠聰明,可以自動識別這些值,而無需明確說明。