BeautifulSoup刮：我很困惑

我想抓this site，我想檢查所有的錨標籤。BeautifulSoup刮：我很困惑

我已經進口beautifulsoup 4.3.2這裏是我的代碼：

url = """http://www.civicinfo.bc.ca/bids?pn=1""" 
Html = urlopen(url).read() 
Soup = BeautifulSoup(Html, 'html.parser') 
Content = Soup.find_all('a')

我的問題是，內容始終是空的（即含量= []）。有沒有人有任何想法？

從the documentationhtml.parser在某些版本的Python之前不是很寬鬆。所以你可能會看到一些格式不正確的HTML。

你想做什麼工作，如果你使用lxml，而不是html.parser

這就是說，有事情可以做，以加快美味的湯。如果你沒有使用lxml作爲底層解析器，我的建議是開始。使用html.parser或html5lib，使用lxml的美麗湯比使用更快地解析文檔。

所以相關的代碼如下：

Soup = BeautifulSoup(Html, 'lxml')

2016-02-02 18:16:26 bernie

轉出限於lxml，它似乎工作。 –

很高興聽到它 – bernie

回答