Python 3網頁抓取選項

我是Python新手，所以我很抱歉，如果這是一個新手問題。Python 3網頁抓取選項

我想構建一個涉及webscraping的程序，我注意到Python 3似乎比Python 2.x系列的網頁抓取模塊少得多。

美麗的湯，機械化和scrapy - 推薦給我的三個模塊 - 都似乎不兼容。

我不知道是否對這個論壇的人有使用Python 3

任何建議，將不勝感激webscraping一個不錯的選擇。

感謝，威爾

2011-08-10 Will Fogel

lxml.html在Python 3的作品，並讓你的HTML解析，至少。

BeautifulSoup 4正在開發中，它應該支持Python 3（我已經在這方面做了一些工作）。

2011-08-11 22:43:46

lxml解析是一個很好的句柄無效HTML，以及BeautifulSoup。它也更快，但更難安裝。 –

Ubuntu用戶可以簡單地安裝「python3-lxml」包。 BeautifulSoup 4將使用lxml（或其他解析器），並專注於訪問DOM的方法。所以它會受益於lxml的速度。 –

回答