1
我有一些HTML越來越錯位,在瀏覽器的讀取:Python的BeautifulSoup - 字符時複製到新的文件
(239 × 340 pixels, file size: 29 KB, MIME type: image/jpeg)
我可以拉出來的HTML源,並在一個新的HTML文檔扔: -
file_details = self.soup.body.find("div", {"id": "file"})
self.new_soup.body.insert(3, file_details)
如果我在終端打印file_details項目,我可以看到我想要的字符串。
當我渲染new_soup HTML,我得到: -
‎ (239 × 340 pixels, file size: 29 KB, MIME type: image/jpeg)
看着生成的HTML,我可以看到額外的字符已經被加入到代碼。
我不知道他們是從哪裏來的,而是在想我要麼一個錯誤的編碼讀取,或用錯誤的編碼寫soomewhere
有什麼建議?
您可能需要採取看BeautifulSoup文檔,更具體[ 「編碼」(HTTP:/ /www.crummy.com/software/BeautifulSoup/bs4/doc/#encodings),[「輸出編碼」](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#output-encoding)。 – iljau
完美。我編碼爲'utf-8',應該是'latin-1' –