2017-02-11 164 views
0

我已經開始學習Python以用於數據科學。我幾乎每天都在使用R。我在第一步堆疊。我嘗試使用Pandas read_csv文件方法導入csv文件。我在導入時編碼文件時遇到問題。使用熊貓在Python中導入csv時出錯

如果我read.csv使用來自R一切正常:

df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8') 

,但如果我在Python中使用類似的代碼:

import pandas as pd 
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8') 

它返回一個錯誤:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte 

我怎麼可能在R中導入一個帶有「utf-8」編碼的文件,但是不能在Python中導入?

如果我使用不同的編碼(latin1或iso-8859-1),它會成功導入文件,但字符不會以正確的方式編碼。

+0

好吧,我想'cp1250'編碼工作得很好。 – Mislav

+0

請向我們展示一下'myfile.txt'的樣本,以幫助我們更好地理解問題。 –

回答

0

即使我不明白爲什麼UTF-8能在R中工作,但在Python中不能工作,我發現cp1250編碼工作正常。

-1

使用編碼「UTF-16」。我用這個來解決我的問題,併發生同樣的錯誤。

+0

你的意思是說使用'utf-16'解決了你的問題,或者你的意思是它仍然給你同樣的問題? – Simon