2011-11-01 36 views
1

我需要一個無頭瀏覽器來解析頁面。 HtmlUnit允許我設置Heroku Java應用程序來完成此目的。使用HtmlUnit作爲搜尋器

但現在我遇到了幾個問題。

目前的一個格式不正確的url「// path」而不是「/ path」或「http(s):// path」。 我下載了2.9.4版本的源代碼,並在源代碼中推送了小修正... 出於明顯的可維護性原因修改標準源代碼並不是真的有效。

我很想知道我是不是在錯誤的方向挖掘。 HtmlUnit被設計爲在測試目的中瀏覽頁面。我的是做這樣一個瀏覽器,因此使頁面的工作最有可能,尤其是因爲我該死的目標網站是那種超髒不尊重的,什麼的...

你怎麼看待這個回顧的意見?

+0

我在想的其他解決方案是: Slenlabs.com與軌道上的Selenium,但我堅持下載文件http://stackoverflow.com/questions/7980155/how-to-download-attachment-with -ruby-and-selenium,只是它總體工作。 另一個想法是在ZombieJS上使用nodeJS應用程序。這個想法是有一個真正的DOM + JS環境,但我的第一個測試已經提高了很多JS錯誤... – ProxyGear

回答