我有一個數據文件,例如:將數據導入到數據幀額外逗號
ID,ORIG,TIME,TEXT
364,1,7-10-15,This works fine
16254,1,7-10-15,But, I don't work :(
9846,0,7-10-15,Neither, do, I
當我導入使用我試圖讓下面的大熊貓:
+-------+------+---------+----------------------+
| ID | ORIG | TIME | TEXT |
+=======+======+=========+======================+
| 3464 | 1 | 7-10-15 | This works fine |
+-------+------+---------+----------------------+
| 16254 | 1 | 7-10-15 | But, I don't work :(|
+-------+------+---------+----------------------+
| 9846 | 0 | 7-10-15 | Neither, do, I |
+-------+------+---------+----------------------+
使用我的腳本data_df = pd.read_csv('data.csv', low_memory=False)
,當我導入第一行時,一切都很好(沒有設置索引)。
但是,由於第二行中有一個逗號,最初在ID中的數據移動到索引列,所有內容都向左移動1。
+-------+----+---------+-----------------+-----------------+
| | ID | ORIG | TIME | TEXT |
+=======+====+=========+=================+=================+
| 3464 | 1 | 7-10-15 | This works fine | NaN |
+-------+----+---------+-----------------+-----------------+
| 16254 | 1 | 7-10-15 | But | I don't work :(|
+-------+----+---------+-----------------+-----------------+
該模式重複,在最後一列中找到更多的逗號。一個可能solution這是重寫文件,但我試圖找到一種方法來簡單地導入它,而不必重寫每個文件(我有大約65 +)。
我的問題是:
是否有可能導入(每行)第一列到「ID」第二欄爲「弊」第三欄爲「時間」和其他一切「TEXT」?
你的數據實際上是否包含所有'+'和'-'以及'='? – DSM
不,它只是用於查看目的 – Leb
您可以添加實際輸入看起來像 –