對於完全非惡意的目的 - 特別是機器學習,我想下載一個CAPTCHA圖像的巨大數據集。然而,CAPTCHA總是使用一些混淆的javascript來實現,這使得在沒有瀏覽器的情況下獲得實際的圖像是一件不平凡的任務,至少對我來說,這是一個JavaScript新手。腳本下載CAPTCHA圖像
所以,任何人都可以給我一些有用的指針,如何使用完全在瀏覽器之外的腳本下載隱藏的詞的圖像?並且請不要指向我已經收集到的模糊詞語的數據集 - 我需要從特定網站收集特定實驗的圖像。
謝謝!
編輯:這個問題可以被問到的另一種方式是非常簡單的。當你點擊網站上的「查看源代碼」時,你會看到腳本引用,但這就是你所看到的。但是,如果您點擊「保存網頁爲...」(在Firefox中),然後查看保存的網頁的來源,javascript將被解析並且新的html和圖像(至少在ASIRRA和reCAPTCHA的情況下)在源頭中。如何使用腳本模仿這種「將網頁另存爲...」行爲?這是一個重要的網絡編碼問題,請不要再質疑我的動機了!這是我可以從所有涉及腳本的Web開發中使用的知識,我相信其他堆棧溢出訪問者也可以!
如何問網站的所有者?如果它是非邪惡的...... – Greg 2009-10-09 13:57:41
該網站實際上是微軟的研究項目名爲ASIRRA,它使用的貓狗,而不是模糊的話 - 但它在基本相同的方式來實現。他們有一個公開的數據集,但它太小了。 – JoeCool 2009-10-09 14:00:27
@格雷格:同意,禮貌的事情是你之前批量下載的內容與網站所有者聯繫,吸了大量的帶寬。 – RedFilter 2009-10-09 14:02:49