我只是有幾個關於這個話題的問題。刮屏|網頁抓取
有人可以解釋的優點和使用下列語言來編寫刮刀的缺點:
的Java/Groovy的
的Perl
比索
硒
的Python
我是也想知道在刮臉時可能會遇到什麼樣的問題,以及我應該如何處理它。例如,我遇到了片段身份,還沒有找到處理它的方法。 (我正在使用htmlunit)
只是爲那些對這個話題有所瞭解的人尋找一些指針。
我只是有幾個關於這個話題的問題。刮屏|網頁抓取
有人可以解釋的優點和使用下列語言來編寫刮刀的缺點:
的Java/Groovy的
的Perl
比索
硒
的Python
我是也想知道在刮臉時可能會遇到什麼樣的問題,以及我應該如何處理它。例如,我遇到了片段身份,還沒有找到處理它的方法。 (我正在使用htmlunit)
只是爲那些對這個話題有所瞭解的人尋找一些指針。
與編程語言本身相比,優點/缺點更多地與可用的框架相關。
謝謝,我沒有考慮過僅僅爲了刮目的考慮Python。我將不得不看看你的建議。也感謝關於在定時器上運行請求的提示。 – StartingGroovy 2010-12-17 21:54:11
考慮看TestPlan。它有它自己的高級語言,但你也可以用Java編寫模塊。它支持Selenium後端以及HTMLUnit。
如果你可以給你一個特定的問題(問題)與你的片段,那麼我也可以回答。
我想我會接受你的建議(因爲我最熟悉Java/Groovy)。我也在考慮關注Selenium;我聽說過很多關於它的事情。至於我的具體問題:http://stackoverflow.com/questions/4320179/htmlunit-getbyxpath-returns-null我針對該問題的評論答案。我還沒有解決這個具體問題。我不知道如何處理與HTMLUnit – StartingGroovy 2010-12-17 21:55:56
片段標識符只是想知道如果你有一個時刻來看看我的問題? – StartingGroovy 2010-12-20 21:54:11
謝謝你的詳細解答。你已經清除了我在周圍漂浮的幾個問題。你有沒有處理Selenium?我一直在考慮檢查它,但還沒有邁出這一步。我想在跳上之前我會做一些研究。 – StartingGroovy 2010-12-17 21:58:34
不,我沒有使用硒,我用過Watir。在這種情況下看看有關利弊的過去問題:http://stackoverflow.com/questions/606550/watir-vs-selenium-vs-sahi我只需要補充一點,Watir對我來說似乎很慢。 – 2010-12-22 19:08:25
非常感謝您的意見,這非常有幫助 – StartingGroovy 2010-12-22 20:42:19