2017-09-23 171 views
0

我想將html文檔輸入到我的python中。如何在python中輸入html

我得到這個錯誤:

UnicodeDecodeError: 'cp950' codec can't decode byte 0xbb in position
362: illegal multibyte sequence

使用此代碼時

from bs4 import BeautifulSoup 

soup = BeautifulSoup(open(xxx.html)) 
print(soup) 

我在做什麼錯?

+0

[UnicodeDecodeError錯誤的可能重複:「utf-8」編解碼器't解碼字節0x9c](https://stackoverflow.com/questions/12468179/unicodedecodeerror-utf8-codec-cant-decode-byte-0x9c) –

回答

0

您正面臨編碼/解碼問題。
試試這個:

soup = BeautifulSoup(open('xxx.html', encoding='your xxx.html file encoding')) 

您可以通過在文件中搜索「字符集」發現「你xxx.html編碼」。
那麼,你會得到類似charset=utf-8或後面「=」,「utf-8」或「XXX」其他charset=xxx
,是您xxx.html編碼