6
我是Python新手,所以我很抱歉,如果這是一個新手問題。Python 3網頁抓取選項
我想構建一個涉及webscraping的程序,我注意到Python 3似乎比Python 2.x系列的網頁抓取模塊少得多。
美麗的湯,機械化和scrapy - 推薦給我的三個模塊 - 都似乎不兼容。
我不知道是否對這個論壇的人有使用Python 3
任何建議,將不勝感激webscraping一個不錯的選擇。
感謝, 威爾
lxml解析是一個很好的句柄無效HTML,以及BeautifulSoup。它也更快,但更難安裝。 –
Ubuntu用戶可以簡單地安裝「python3-lxml」包。 BeautifulSoup 4將使用lxml(或其他解析器),並專注於訪問DOM的方法。所以它會受益於lxml的速度。 –