我正在嘗試使用pandas read_csv讀取大文件(〜8Gb)。在數據的其中一列中,有時會列出一個包含逗號但它通過花括號例如使用read_csv引起的額外逗號導致數據幀中出現太多
「label1的」, 「LABEL2」, 「LABEL3」, 「label4」, 「label5」
「{A1}」, 「2」, 「」,「假封閉「,」{「apple」:false,「pear」:false,「banana」:null}
因此,當讀取這些特定行時,出現錯誤「Error tokenizing data。C error:Expected 37第35行的田地,看到42「。我找到了this解決方案,它說要添加 sep =「,(?![^ {* *))」到read_csv參數中,這些參數正確地分割數據。但是,數據現在包含每個條目的引號(這在我添加sep參數之前沒有發生)。
的數據現在看起來是這樣的:
「LABEL1」 「LABEL2」 「LABEL3」 「label4」 「label5」
「{A1}」 「2」 「」 「假」,「{ 「apple」:false,「pear」:false,「banana」:null}「
意思是我不能在數字數據上使用例如.describe()等,因爲它們仍然是字符串。
有沒有人知道在沒有引號的情況下閱讀它的方式,但是仍然會將數據分裂到哪裏?
對Python很新穎,所以如果有明顯的解決方案,我們表示歉意。
serialdev找到了解決刪除「秒,但該數據列的對象,而不是我期望/想要的,例如整數值不被視爲整數。
的數據需要在被拆分「,」明確地(包括「s」),有沒有一種方式說明在read_csv參數中?
謝謝!
謝謝你的回答 - 我接受了,因爲它做了我想要的東西一條線。 :) –