我想將一些網頁使用JavaScript純HTML,我發現有幾種方式(請告訴我,如果我錯了):如何使用javascript將網頁轉換爲純HTML?
- 用Jython,一個例子:http://blog.databigbang.com/web-scraping-ajax-and-javascript-sites/
- 使用的Java使用Qt或PyV8
http://grep.codeconsult.ch/2007/02/24/crowbar-scrape-javascript-generated-pages-via-gecko-and-rest/
所以我試圖做一個代理壁虎,但它似乎需要一個DISPLAY,我不能在遠程Linux服務器。
現在我正在嘗試使用jython,但它似乎沒有簡單的方法來將整個頁面轉換爲純html。
其實,我想問一下,是否有一種方法可以將包含javascript的網頁轉換爲純html,就像瀏覽器一樣。 node.js可以完成這項工作嗎?
使用Selenium/Ghost.py渲染它並將DOM轉儲到一個HTML文件。 – Blender
出於好奇,你想完成什麼? – josh
是啊,那...你想從頁面中刪除所有的JavaScript?這可以通過正則表達式輕鬆完成...... –