我已經開始學習Python以用於數據科學。我幾乎每天都在使用R。我在第一步堆疊。我嘗試使用Pandas read_csv文件方法導入csv文件。我在導入時編碼文件時遇到問題。使用熊貓在Python中導入csv時出錯
如果我read.csv使用來自R一切正常:
df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8')
,但如果我在Python中使用類似的代碼:
import pandas as pd
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8')
它返回一個錯誤:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte
我怎麼可能在R中導入一個帶有「utf-8」編碼的文件,但是不能在Python中導入?
如果我使用不同的編碼(latin1或iso-8859-1),它會成功導入文件,但字符不會以正確的方式編碼。
好吧,我想'cp1250'編碼工作得很好。 – Mislav
請向我們展示一下'myfile.txt'的樣本,以幫助我們更好地理解問題。 –