13
我有一個輸入文件,其中每個值都以字符串形式存儲。 它位於csv文件中,每個條目在雙引號內。csv中的雙引號元素不能讀熊貓
示例文件:
"column1","column2", "column3", "column4", "column5", "column6"
"AM", "07", "1", "SD", "SD", "CR"
"AM", "08", "1,2,3", "PR,SD,SD", "PR,SD,SD", "PR,SD,SD"
"AM", "01", "2", "SD", "SD", "SD"
只有六列。我需要輸入什麼選項來讀熊貓read_csv才能正確讀取?
我目前正在嘗試:
import pandas as pd
df = pd.read_csv(file, quotechar='"')
但是這給我的錯誤信息: CParserError: Error tokenizing data. C error: Expected 6 fields in line 3, saw 14
這顯然意味着它忽視了「'和分析每一個逗號作爲字段 (「1,2,3」,「PR,SD,SD」,「PR,SD,SD」,「PR,SD,SD」)對於第3行,第3列至第6列應爲帶逗號的字符串。 )
如何獲得pandas.read_csv來正確解析?
謝謝。
如果你善於用正則表達式,你可以在九月arguement用它來read_csv ... http://stackoverflow.com/questions/24091356/pandas-read-csv-with-final-column-containing -commas – rhaskett 2014-10-27 23:38:08