2016-02-02 401 views
0

我想抓this site,我想檢查所有的錨標籤。BeautifulSoup刮:我很困惑

我已經進口beautifulsoup 4.3.2這裏是我的代碼:

url = """http://www.civicinfo.bc.ca/bids?pn=1""" 
Html = urlopen(url).read() 
Soup = BeautifulSoup(Html, 'html.parser') 
Content = Soup.find_all('a') 

我的問題是,內容始終是空的(即含量= [])。有沒有人有任何想法?

回答

2

the documentationhtml.parser在某些版本的Python之前不是很寬鬆。所以你可能會看到一些格式不正確的HTML。

你想做什麼工作,如果你使用lxml,而不是html.parser

the documentation

這就是說,有事情可以做,以加快美味的湯。如果 你沒有使用lxml作爲底層解析器,我的建議是開始。 使用html.parser或html5lib,使用lxml的美麗湯比使用 更快地解析文檔。

所以相關的代碼如下:

Soup = BeautifulSoup(Html, 'lxml') 
+0

轉出限於lxml,它似乎工作。 –

+0

很高興聽到它 – bernie