2010-01-31 101 views
2

我正在研究一個網站刮板,它將彙總來自各個網站的數據。我已經開始使用PHP構建的DOM函數,但在遇到幾個問題(特別是關於格式錯誤的標記和字符編碼)後,我選擇了放棄PHP。我正在考慮服務器端Javascript,但我打開其他建議。如果我使用Javascript,應該使用哪個解釋器?DOM操作的最佳工具?

回答

1

Python中有一個很好的BeautifulSoup模塊,可以在大多數情況下處理破碎的標記。如果頁面格式錯誤以至內置啓發式不起作用,它還允許使用鉤子預處理HTML。我用BeautifulSoup編寫了幾十個解析器。

還有html5lib模塊更快,也可以解析無效的HTML。

這兩個模塊都有Ruby端口。