我正在研究一個網站刮板,它將彙總來自各個網站的數據。我已經開始使用PHP構建的DOM函數,但在遇到幾個問題(特別是關於格式錯誤的標記和字符編碼)後,我選擇了放棄PHP。我正在考慮服務器端Javascript,但我打開其他建議。如果我使用Javascript,應該使用哪個解釋器?DOM操作的最佳工具?
2
A
回答
2
嘗試過Simple HTML DOM Parser沒有?
1
Python中有一個很好的BeautifulSoup模塊,可以在大多數情況下處理破碎的標記。如果頁面格式錯誤以至內置啓發式不起作用,它還允許使用鉤子預處理HTML。我用BeautifulSoup編寫了幾十個解析器。
還有html5lib模塊更快,也可以解析無效的HTML。
這兩個模塊都有Ruby端口。
相關問題
- 1. 在angularJS中操作DOM:最佳實踐?
- 2. SmallTalk學習和開發的最佳操作系統和工具
- 3. DOM操作不工作
- 4. 用javascript/jQuery操作dom元素屬性的最佳方法
- 5. Html Graphs的最佳工具
- 6. Ajax的最佳工具包?
- 7. 最佳陣列操作API
- 8. 最佳玩回覆操作
- 9. 最佳PHP QA工具
- 10. 最佳語言工具
- 11. PHP中的DOM DOM操作
- 12. 使用.Net網絡服務監視Coldfusion互操作性的最佳工具
- 13. 製作2D遊戲的最佳編程語言和最佳工具包
- 14. DOM操作
- 15. Extjs dom操作
- 16. jQuery DOM操作
- 17. 從JavaScript操作CSS的最佳實踐?
- 18. Android操作欄的最佳做法
- 19. 操作聲音的最佳語言?
- 20. 操作數據的最佳實踐
- 21. 執行此操作的最佳方式
- 22. 表單操作的最佳方式?
- 23. Python的最佳視頻操作庫?
- 24. 可視化功能的最佳工具
- 25. 可視化本體的最佳工具?
- 26. 最佳工具生成Java或jQuery的
- 27. 圖像分割的最佳工具
- 28. aspnet部署工具的最佳組合
- 29. 適用於AJAX的最佳工具
- 30. 使用Amazon RDS的最佳工具?
謝謝,我會給它一個鏡頭。 – 2010-01-31 07:59:11