Python的BeautifulSoup - 字符時複製到新的文件

我有一些HTML越來越錯位，在瀏覽器的讀取：Python的BeautifulSoup - 字符時複製到新的文件

‎(239 × 340 pixels, file size: 29 KB, MIME type: image/jpeg)

我可以拉出來的HTML源，並在一個新的HTML文檔扔： -

file_details = self.soup.body.find("div", {"id": "file"}) 
self.new_soup.body.insert(3, file_details)

如果我在終端打印file_details項目，我可以看到我想要的字符串。

當我渲染new_soup HTML，我得到： -

â€Ž (239 Ã— 340 pixels, file size: 29 KB, MIME type: image/jpeg)

看着生成的HTML，我可以看到額外的字符已經被加入到代碼。

我不知道他們是從哪裏來的，而是在想我要麼一個錯誤的編碼讀取，或用錯誤的編碼寫soomewhere

有什麼建議？

來源

2014-01-25 Jay Gattuso

您可能需要採取看BeautifulSoup文檔，更具體[ 「編碼」（HTTP：/ /www.crummy.com/software/BeautifulSoup/bs4/doc/#encodings），[「輸出編碼」]（http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-encoding）。 – iljau

完美。我編碼爲'utf-8'，應該是'latin-1' –

感謝iljau的評論，我解決了它。

在我準備保存陳述時，我用錯誤的編碼進行了修飾。

那句話： -

html = soup.prettify("utf-8")

固定它變爲： -

html = soup.prettify("latin-1")

來源

2014-01-26 01:07:54

Python的BeautifulSoup - 字符時複製到新的文件

回答

相關問題