我想從我有一個巨大的csv文件中讀取數據。我向我顯示這個錯誤UnicodeDecodeError: 'utf-8' codec can't decode byte 0xae in position 13: invalid start byte
。有什麼辦法可以跳過導致拋出異常的行嗎?從數百萬行這些只是少數,我不能手動刪除它們。我嘗試添加error_bad_lines = False,但這並沒有解決問題。我使用的是通過Anaconda 4.4.0獲得的Python 3.6.1。如果有幫助,我也使用Mac。請幫助我,我是新手。使用read_csv從熊貓讀取錯誤的數據格式的csv文件
0
A
回答
0
在我看來,文件中有一些非ASCII字符無法解碼。大熊貓接受編碼爲read_csv參數(如果這能幫助):
my_file = pd.read_csv('Path/to/file.csv', encoding = 'encoding')
的默認編碼是無,這就是爲什麼你可能會得到這些錯誤。 Here is a link to the standard Python encodings - 嘗試「ISO-8859-1」(aka'latin1')或者'utf8'開始。
熊貓允許您在讀取csv時指定要跳過的行,但您需要知道這些行的索引,在您的情況下這將非常困難。
相關問題
- 1. 熊貓read_csv文件導入錯誤
- 2. 熊貓:read_csv(讀取單個文件中的多個表格)
- 3. 熊貓分割錯誤read_csv
- 4. 大熊貓read_csv預計錯誤的列數,與衣衫襤褸的csv文件
- 5. 創建csv出錯讀取由熊貓讀取的excel文件
- 6. 用.csv格式的HDFS文件創建熊貓數據框
- 7. 熊貓文件IO讀取錯誤
- 8. 熊貓:使用`sep`和`comment`參數讀取CSV文件時錯誤
- 9. 熊貓閱讀.csv文件
- 10. 蟒大熊貓讀取csv文件錯誤在列名
- 11. 讀取csv文件到熊貓失敗
- 12. 將csv文件讀取到熊貓
- 13. 熊貓read_csv功能是閱讀CSV標題錯
- 14. 熊貓是否支持使用read_csv讀取`set`參數
- 15. 使用熊貓獲取CSV文件中的數據
- 16. 使用SSL從HTTPS讀取文件到熊貓數據框
- 17. 熊貓read_csv使用dtype
- 18. 大熊貓read_csv修復列讀取數據
- 19. 從多個文件讀取多個CSV文件到熊貓DataFrame
- 20. 熊貓read_csv錯誤導入結果
- 21. 從csv文件中讀取數據並轉換爲熊貓的時間序列
- 22. 使用OleDB讀取CSV數據的文件訪問錯誤
- 23. 傳遞值使用熊貓csv文件的錯誤形狀
- 24. 熊貓讀取格式不正確的CSV
- 25. 大熊貓讀取ASCII格式的表
- 26. Python的大熊貓讀取自定義文件格式的數據幀
- 27. 使用「datetime64 [NS]」格式用於從熊貓提取數據幀
- 28. 熊貓 - 使用read_csv從發生器對象創建數據框
- 29. 使用熊貓在Python中讀取csv文件塊
- 30. Python熊貓:從csv讀取和寫入數據框中的單元格
謝謝我能夠讀取csv文件。但是,對於文件中的每個黑色單元,DataFrame都表示nan。我想構建一個像'if df.col [0] == nan'等等語句那麼一些東西。但那說nan沒有被定義。我可以在平等聲明中加入什麼? – anon
是否要刪除「nan」行?如果你想這樣做,你可以做一些像 'df = df [df.Column_name ==「nan」]' 應該工作,或者 'df = df [df ['Column_name']。str。比較(「南」)]' 如果你想找到的單元格的值,做一些像 '如果df.iat [i,j] ==「nan」'與索引我和j – Peter