我經常發現自己需要爲了內部目的而做一些簡單的屏幕抓取(即,我僅使用通過HTML發佈報告的第三方服務)。現在我至少有兩三個例子。我可以使用Apache httpclient並創建所有必要的屏幕抓取代碼,但需要一段時間。這是我平常的過程:超快速刮屏技巧?
- 在網站上打開Charles Proxy,看看發生了什麼。
- 開始使用Apache HttpClient編寫一些java代碼,處理cookie,多個請求
- 使用Jericho HTML來處理HTML的解析。
我希望我能夠快速記錄我的會話,然後參數化每個會話之間不同的事情。設想一下,使用Charles抓取所有請求HTTP,然後參數化相關查詢字符串或後參數。 Voila我有一個可重用的http腳本。
有什麼可以做到這一點嗎?我記得當我曾經在一家大公司工作時,曾經是我們使用的一個工具,我們稱之爲Mercury Interactive的Load Runner,它基本上有一個很好的方法來記錄http會話並使其可重用(用於測試目的)。不幸的是,這個工具非常昂貴。
感謝您對所有的答案。我認爲他們都很有價值,並會幫助其他面臨同樣困境的人。我決定嘗試Twill,因爲它看起來像一種非常簡單的語言,因爲它在Python中是跨平臺的。建議的許多工具看起來都不錯 - 雖然有些看起來像Windows特有的,其他人似乎有更陡峭的學習曲線。 – Ish 2009-04-22 23:07:53