我目前有一些Ruby代碼用來刮一些網站。我使用的是Ruby,因爲那時我正在使用Ruby on Rails作爲網站,而且這很有意義。我應該用什麼純粹的Python庫來抓取一個網站?
現在我試圖將其移交給Google App Engine,並且一直卡住。
我已經將Python Mechanize移植到Google App Engine中,但它不支持使用XPATH進行DOM檢查。
我試過了內建的ElementTree,但它在我碰到'& mdash'時給它的第一個HTML blob上嗆了。
我一直試圖在那裏破解ElementTree,還是嘗試使用別的東西?
感謝, 馬克
所有這些的重複:http://stackoverflow.com/search?q=%5Bpython%5D+html+parse – 2009-10-13 22:02:14
我可能必須去scrapy,我可以使用XPath與美麗的湯? – MStodd 2009-10-15 05:53:58
其實我可能不得不一起去,因爲我不確定美麗的湯是否適用於xpath,它看起來像scrapy有二元依賴。 – MStodd 2009-10-15 06:00:50