0
BeautifulSoup無法解析帶有選項html5lib
的html頁面,但可以正常使用html.parser
選項。根據docs,html5lib
應該比html.parser
更寬鬆,那爲什麼我在使用它解析html頁面時遇到了亂碼?BeautifulSoup無法用`html5lib`解析html
下面是一個小的可執行例子。(改html5lib
與html.parser
後,中國輸出是否正常。)
#_*_coding:utf-8_*_
import requests
from bs4 import BeautifulSoup
ss = requests.Session()
res = ss.get("http://tech.qq.com/a/20151225/050487.htm")
html = res.content.decode("GBK").encode("utf-8")
soup = BeautifulSoup(html, 'html5lib')
print str(soup)[0:800] # where you can see if the html is parsed normally or not