Python編碼\用於寫入文本文件的解碼

我老老實實地在這上面花了很多時間，並且它正在慢慢地殺死我。我從PDF中剝離了內容並將其存儲在一個數組中。現在我試圖將其從數組中拉出並寫入一個txt文件。但是，由於編碼問題，我似乎無法做到這一點。Python編碼用於寫入文本文件的解碼

allTheNTMs.append(contentRaw[s1:].encode("utf-8")) 
for a in range(len(allTheNTMs)): 
     kmlDescription = allTheNTMs[a] 
     print kmlDescription #this prints out fine 
     outputFile.write(kmlDescription)

我得到的錯誤是「的UnicodeDecodeError：ASCII編碼解碼器不能在213位解碼字節爲0xC2：序數不在範圍內（128）

我只是瞎搞了，但我已經試過各種方法讓這些東西寫出來。

outputFile.write(kmlDescription).decode('utf-8')

請原諒我，如果這是基本的，我還在學習的Python（2.7）。

乾杯！

EDIT1：樣本數據看起來像下面這樣：

Chart 3686 (plan, Morehead City) [ previous update 4997/11 ] NAD83 DATUM 
Insert the accompanying block, showing amendments to coastline, 
depths and dolphins, centred on: 34° 41´·19N., 76° 40´·43W. 
Delete R 34° 43´·16N., 76° 41´·64W.

當我添加打印類型（原始），我得到

編輯2：當我嘗試寫數據時，我收到原始的錯誤消息（ASCII編碼解碼器不能解碼字節...）

我將檢查建議的螺紋和視頻。謝謝你們！

編輯3：我使用Python 2.7

編輯4：AGF擊中頭部釘在下面的意見時，他（她）注意到我是雙編碼。我試圖雙重編碼一個以前一直在工作的字符串，併產生了最初拋出的相同錯誤信息。喜歡的東西：

text = "Here's a string, but imagine it has some weird symbols and whatnot in it - apparently latin-1" 
textEncoded = text.encode('utf-8') 
textEncodedX2 = textEncoded.encode('utf-8') 
outputfile.write(textEncoded) #Works! 
outputfile.write(textEncodedX2) #failed

一旦我想通了，我是想雙編碼時，溶液呈如下：

allTheNTMs.append(contentRaw[s1:].encode("utf-8")) 
for a in range(len(allTheNTMs)): 
    kmlDescription = allTheNTMs[a] 
    kmlDescriptionDecode = kmlDescription.decode("latin-1") 
    outputFile.write(kmlDescriptionDecode)

它的工作了，我肯定感謝所有您的幫助！

來源

2012-03-27 gruvn

請提供一些樣品數據，你有問題。並運行「type（raw_data）」並將結果粘貼到您的問題中 – pylover 2012-03-27 19:45:35

如果您只是嘗試「寫入」contentRaw，會發生什麼情況？它看起來像數據已經編碼。 – agf 2012-03-27 19:51:59

我使用'codecs'模塊解決了一些相同的問題，特別是'codecs.open（）'和'codecs.write（）'。值得一看。 – heltonbiker 2012-03-27 19:59:44

你的錯誤消息似乎並沒有出現涉及到任何你的Python語法，但實際上事實你試圖解碼其中有UTF-8沒有等效十六進制值。爲0xC2出現

HEX表示一個拉丁字符 - 在頂部重音的大寫字母A。因此，與其使用「allTheNTMs.append（contentRaw [S1：]編碼（」 UTF-8 「））」，嘗試： -

allTheNTMs.append(contentRaw[s1:].encode("latin-1"))

我不是在Python所以這可能專家不工作，但它會顯示你正在嘗試編碼拉丁字符。鑑於您也收到了錯誤消息，看起來當嘗試使用UTF-8進行編碼時，Python只會查看前128個條目，因爲您的錯誤似乎表明條目「0Xc2」超出了範圍，實際上它是在UTF-8的前128個條目中。

來源

2012-03-27 19:53:26 thefragileomen

UTF-8可以代表任何unicode代碼點，所以問題是他試圖對數據進行雙重編碼，而不是目標編碼是什麼。 – agf 2012-03-27 20:04:32

這是不正確的。他正在調用**'.encode' **方法並得到一個Unicode **解碼**錯誤。這意味着python2的隱式str/unicode轉換正在進行。 – Daenyth 2012-03-27 20:29:03

我的猜測是，你已經打開的輸出文件已被打開與latin1甚至utf-8編解碼器，因此你不能因爲它試圖重新轉換它utf-8編碼的數據寫入到，否則到正常打開的文件，你可以寫任何任意數據串，這裏是一個例子重新創建類似的錯誤

u = u'सच्चिदानन्द हीरानन्द वात्स्यायन ' 
s = u.encode('utf-8') 
f = codecs.open('del.text', 'wb',encoding='latin1') 
f.write(s)

輸出：

Traceback (most recent call last): 
    File "/usr/lib/wingide4.1/src/debug/tserver/_sandbox.py", line 1, in <module> 
    # Used internally for debug sandbox under external interpreter 
    File "/usr/lib/python2.7/codecs.py", line 691, in write 
    return self.writer.write(data) 
    File "/usr/lib/python2.7/codecs.py", line 351, in write 
    data, consumed = self.encode(object, self.errors) 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe0 in position 0: ordinal not in range(128)

解：

這將工作，如果你沒有設置任何編解碼器

f = open('del.txt', 'wb') 
f.write(s)

另一種選擇是直接寫不連同編碼unicode字符串到文件中，如果OUTPUTFILE已經開通使用正確的編解碼器例如

f = codecs.open('del.text', 'wb',encoding='utf-8') 
f.write(u)

來源

2012-03-27 20:14:02

謝謝 - 我試過這只是爲了得到錯誤「typeerror：編碼是一個無效的關鍵字參數爲這個函數）」。看起來像用Python 3開始的編碼打開，我使用2.7。我應該詳細說明，並編輯我的問題。 – gruvn 2012-03-28 19:28:08

@gruvn我正在使用Python 2.7，你正在傳遞的編碼函數？使用codecs.open – 2012-03-28 20:10:43

哦，廢話 - 對不起阿努拉格 - 我是想： F =開放（ 'del.text'， 'WB'，編碼= 'UTF-8'）的代替 F = codecs.open（ 'del.text'，'wb'，encoding ='utf-8'）我會再看一次。 PS：抱歉格式化，我無法使代碼標籤正常工作！ – gruvn 2012-03-29 11:20:30

Python編碼\用於寫入文本文件的解碼

回答

相關問題