2011-08-10 85 views
6

我是Python新手,所以我很抱歉,如果這是一個新手問題。Python 3網頁抓取選項

我想構建一個涉及webscraping的程序,我注意到Python 3似乎比Python 2.x系列的網頁抓取模塊少得多。

美麗的湯,機械化和scrapy - 推薦給我的三個模塊 - 都似乎不兼容。

我不知道是否對這個論壇的人有使用Python 3

任何建議,將不勝感激webscraping一個不錯的選擇。

感謝, 威爾

回答

3

lxml.html在Python 3的作品,並讓你的HTML解析,至少。

BeautifulSoup 4正在開發中,它應該支持Python 3(我已經在這方面做了一些工作)。

+0

lxml解析是一個很好的句柄無效HTML,以及BeautifulSoup。它也更快,但更難安裝。 –

+1

Ubuntu用戶可以簡單地安裝「python3-lxml」包。 BeautifulSoup 4將使用lxml(或其他解析器),並專注於訪問DOM的方法。所以它會受益於lxml的速度。 –