2013-10-21 27 views
2

我想將一些網頁使用JavaScript純HTML,我發現有幾種方式(請告訴我,如果我錯了):如何使用javascript將網頁轉換爲純HTML?

  1. 用Jython,一個例子:http://blog.databigbang.com/web-scraping-ajax-and-javascript-sites/
  2. 使用的Java使用Qt或PyV8

http://grep.codeconsult.ch/2007/02/24/crowbar-scrape-javascript-generated-pages-via-gecko-and-rest/

  • 使用Python在一起,因爲我想打一個小工具:用
  • 的HtmlUnit
  • 一起使用代理,一個例子以滿足我的要求,而且我認爲安裝V8和qt有點複雜,儘管python是我的第一選擇。

    所以我試圖做一個代理壁虎,但它似乎需要一個DISPLAY,我不能在遠程Linux服務器。

    現在我正在嘗試使用jython,但它似乎沒有簡單的方法來將整個頁面轉換爲純html。

    其實,我想問一下,是否有一種方法可以將包含javascript的網頁轉換爲純html,就像瀏覽器一樣。 node.js可以完成這項工作嗎?

  • +0

    使用Selenium/Ghost.py渲染它並將DOM轉儲到一個HTML文件。 – Blender

    +0

    出於好奇,你想完成什麼? – josh

    +0

    是啊,那...你想從頁面中刪除所有的JavaScript?這可以通過正則表達式輕鬆完成...... –

    回答

    1

    我最近在PhantomJS上構建了一個服務器來完成這個任務。我強烈推薦這條路線。

    http://phantomjs.org/

    基本上,你寫的有PhantomJS運行頁面快速腳本,並配置一個觸發方法,讓你知道該頁面完成,將數據從發送。我的版本使用內置的HTTP服務器,因此PhantomJS可以輕鬆地提供結果。這需要大約15行代碼才能完成。 (對不起,不能粘貼在這裏...寫在工作時間,但看看他們的主頁上的例子,它幾乎完成!)

    +0

    謝謝,phantomjs解決了我的問題。 – WKPlus