2014-01-25 62 views
1

我有一些HTML越來越錯位,在瀏覽器的讀取:Python的BeautifulSoup - 字符時複製到新的文件

‎(239 × 340 pixels, file size: 29 KB, MIME type: image/jpeg)

我可以拉出來的HTML源,並在一個新的HTML文檔扔: -

file_details = self.soup.body.find("div", {"id": "file"}) 
self.new_soup.body.insert(3, file_details) 

如果我在終端打印file_details項目,我可以看到我想要的字符串。

當我渲染new_soup HTML,我得到: -

‎ (239 × 340 pixels, file size: 29 KB, MIME type: image/jpeg)

看着生成的HTML,我可以看到額外的字符已經被加入到代碼。

我不知道他們是從哪裏來的,而是在想我要麼一個錯誤的編碼讀取,或用錯誤的編碼寫soomewhere

有什麼建議?

+1

您可能需要採取看BeautifulSoup文檔,更具體[ 「編碼」(HTTP:/ /www.crummy.com/software/BeautifulSoup/bs4/doc/#encodings),[「輸出編碼」](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-encoding)。 – iljau

+0

完美。我編碼爲'utf-8',應該是'latin-1' –

回答

1

感謝iljau的評論,我解決了它。

在我準備保存陳述時,我用錯誤的編碼進行了修飾。

那句話: -

html = soup.prettify("utf-8")

固定它變爲: -

html = soup.prettify("latin-1")

相關問題