使用熊貓在Python中導入csv時出錯

我已經開始學習Python以用於數據科學。我幾乎每天都在使用R。我在第一步堆疊。我嘗試使用Pandas read_csv文件方法導入csv文件。我在導入時編碼文件時遇到問題。使用熊貓在Python中導入csv時出錯

如果我read.csv使用來自R一切正常：

df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8')

，但如果我在Python中使用類似的代碼：

import pandas as pd 
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8')

它返回一個錯誤：

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte

我怎麼可能在R中導入一個帶有「utf-8」編碼的文件，但是不能在Python中導入？

如果我使用不同的編碼（latin1或iso-8859-1），它會成功導入文件，但字符不會以正確的方式編碼。

2017-02-11 Mislav

好吧，我想'cp1250'編碼工作得很好。 – Mislav

請向我們展示一下'myfile.txt'的樣本，以幫助我們更好地理解問題。 –

即使我不明白爲什麼UTF-8能在R中工作，但在Python中不能工作，我發現cp1250編碼工作正常。

2017-02-11 22:48:02 Mislav

-1

使用編碼「UTF-16」。我用這個來解決我的問題，併發生同樣的錯誤。

2018-02-26 22:37:43 Alvarete

你的意思是說使用'utf-16'解決了你的問題，或者你的意思是它仍然給你同樣的問題？ – Simon

回答