2011-10-24 65 views
7

我想運行一個爬蟲程序,它可以在沒有X服務器的環境中處理javascript創建的html。我知道我可以在xvfb下以無頭狀態運行Firefox,並且我知道如何在Firefox上安裝MozRepl,並在使用WWW :: Mechanize進行交互時可以下載並設置模塊。使用MozRepl設置無頭火狐瀏覽器

我不知道該怎麼辦,是在沒有X服務器的環境下,在Firefox上設置MozRepl,以方便我安裝模塊。任何幫助表示讚賞。

回答

3

根據您想要使用的語言,有許多無頭html + javascript的選項(主要歸功於谷歌在Chrome瀏覽器中使用的新玩具Node.js),但不幸的是,我知道沒有一個是基於Firefox的 - - 有crowbar,但它似乎自2008年以來未更新。

現在,firefox已經開始將壁虎與瀏覽器前端更緊密地結合起來,因此基於Firefox的這種軟件變得不太可行。

關於Node.js的,我不知道很多關於Perl的產品,但這裏有一些其他的:

  • zombie(JavaScript的)
  • mink(PHP 5.3)(使用殭屍作爲後端)

然後還有一些非節點選項,以及:

  • phantomjs(JavaScript)的(使用WebKit的後端,這可能需要安裝X)
  • htmlunit(JAVA)
  • akephalos(紅寶石)(使用一個的HtmlUnit後端)

我相信有也是node.js的python接口(儘管如果它實現了一個瀏覽器環境,我不知道),並且在perl空間以及節點中可能正在進行工作。

+0

Phantomjs看起來很棒。感謝指針 –

相關問題