我正在使用node.js在網頁應用程序中使用大量的屏幕抓取工作。我感覺自己在每一個角落都與當前的潮流搏鬥。必須有一個更簡單的方法來做到這一點。最值得注意的是,兩件事情令人不快:在node.js中做屏幕抓取的最優雅的方法是什麼?
Cookie傳播。我可以從響應頭文件中取出'set-cookie'數組,但是執行字符串操作來將數組解析出數組感覺非常駭人聽聞。
重定向以下。我希望每個請求都能在302狀態碼返回時通過重定向進行跟蹤。
我遇到了兩件事看着有用的,但我不能在最後使用:
http://zombie.labnotes.org/,但它並沒有支持HTTPS,這樣我就可以」不要用它。
http://www.phantomjs.org/,但無法使用它,因爲它沒有(看起來)與node.js集成。這對我正在做的事情也是很重量級的。
是否有任何JavaScript screenscraping-esque庫傳播cookies,遵循重定向和支持HTTPS?任何關於如何使這更簡單的指針?
在陽光下嘗試殭屍和其他無頭瀏覽器之後,我最終使用節點與phantomjs一起使用,並且它的工作非常漂亮。您可以在節點中使用spawn方法並從幻影中獲取響應。這是我發現的唯一一款基於javascript的解決方案,它可以處理cookie,重定向,登錄會話以及任何使用高級javascript的東西。我將很快發佈一篇博客文章,並回復並發表評論。 – Clint 2011-03-29 15:39:55
還有http://node.io – 2012-09-06 01:43:45