進口困難,我有一個CSV文件格式如下:與read_csv
0;2017-02-16 15:08:16;81,307877;;;;;;;
所以,分號作爲分隔符,日期和時間,並與小數逗號浮動。最後還有一堆分號。
熊貓csv_read應該是一個很好的解決方案。然而,經過很多嘗試,我覺得很困難。我不明白如何處理文件末尾的「;;」,我很不確定我是否理解csv_read在涉及更詳細的控制可能性時的工作原理。
對於經常使用csv_read的人來說,這必須是一個非常簡單的問題......我希望。我花了相當長的一段時間,它已經...
一個例子:
pd.read_csv(r'C:\Users\Henrik\PycharmProjects\Regforce\Kort_del_1.csv',
encoding="latin", sep=';', decimal=',', usecols=[0, 1, 2, 3])
作爲回報,我得到:
ÿþ0 Unnamed: 1 Unnamed: 2 Unnamed: 3
0 NaN NaN NaN NaN
1 NaN NaN NaN NaN
我也試圖「逼」類型的每一個沒有結果的列...?
更新: 我發現了一個有趣的帖子,http://pythonforengineers.com/website-visitors-part-2-dealing-with-corrupt-data/ ...所以我下載了HEX閱讀器,並在輸入文件的開頭髮現了一些奇怪的東西。這似乎是上表中「ÿþ0」背後的原因。如果我在Notebook中打開它,但無法在文件中看到它。
這可能是文件中NaN的起源嗎?我該如何處理它?看起來像read_csv能夠識別列的存在,但我無法獲得任何值......?