腳本下載CAPTCHA圖像

對於完全非惡意的目的 - 特別是機器學習，我想下載一個CAPTCHA圖像的巨大數據集。然而，CAPTCHA總是使用一些混淆的javascript來實現，這使得在沒有瀏覽器的情況下獲得實際的圖像是一件不平凡的任務，至少對我來說，這是一個JavaScript新手。腳本下載CAPTCHA圖像

所以，任何人都可以給我一些有用的指針，如何使用完全在瀏覽器之外的腳本下載隱藏的詞的圖像？並且請不要指向我已經收集到的模糊詞語的數據集 - 我需要從特定網站收集特定實驗的圖像。

謝謝！

編輯：這個問題可以被問到的另一種方式是非常簡單的。當你點擊網站上的「查看源代碼」時，你會看到腳本引用，但這就是你所看到的。但是，如果您點擊「保存網頁爲...」（在Firefox中），然後查看保存的網頁的來源，javascript將被解析並且新的html和圖像（至少在ASIRRA和reCAPTCHA的情況下）在源頭中。如何使用腳本模仿這種「將網頁另存爲...」行爲？這是一個重要的網絡編碼問題，請不要再質疑我的動機了！這是我可以從所有涉及腳本的Web開發中使用的知識，我相信其他堆棧溢出訪問者也可以！

來源

2009-10-09 JoeCool

如何問網站的所有者？如果它是非邪惡的...... – Greg 2009-10-09 13:57:41

該網站實際上是微軟的研究項目名爲ASIRRA，它使用的貓狗，而不是模糊的話 - 但它在基本相同的方式來實現。他們有一個公開的數據集，但它太小了。 – JoeCool 2009-10-09 14:00:27

@格雷格：同意，禮貌的事情是你之前批量下載的內容與網站所有者聯繫，吸了大量的帶寬。 – RedFilter 2009-10-09 14:02:49

在等待答案的時候，我不停地挖掘並最終想出了一種黑暗的方式來完成我想要的任務。

首先，這是一個有點複雜的問題（至少像我這樣的JavaScript新手）的原因是，ASIRRA的圖像通過javascript，這是一種客戶端技術加載到網頁上。當您使用類似wget或curl下載網頁時，這是一個問題，因爲它實際上並沒有運行javascript，它只是下載源html。因此，你不會獲得圖像。

但是，我意識到使用firefox的「Save Page As ...」完全符合我的需求。它運行加載圖像的JavaScript，然後將其全部保存到我的硬盤驅動器上衆所周知的目錄結構中。這正是我想要自動化的。所以...我發現了一個Firefox插件叫做「iMacros的」，並寫了這個宏：

VERSION BUILD=6240709 RECORDER=FX 
TAB T=1 
URL GOTO=http://www.asirra.com/examples/ExampleService.html 
SAVEAS TYPE=CPL FOLDER=C:\Cat-Dog\Downloads FILE=*

設置爲循環播放10000次，它的工作完美。實際上，因爲它總是保存到同一個文件夾中，所以重寫的圖像被覆蓋（這正是我想要的）。

來源

2009-10-12 18:23:28 JoeCool

爲什麼不自己獲取CAPTCHA並生成圖像？ reCAPTCHA也是免費的。 http://www.captcha.net/

更新：我看到你從一個特定的網站想要，但如果你自己的，你可以調整它給同種圖像作爲你的目標網站。

來源

2009-10-09 14:07:01

我已經擁有自己的服務器和運行recaptcha的網站，但同樣的問題依然存在。如果我瀏覽到我的網站，我可以看到新的模糊詞語，但是如果我使用終端或腳本，我無法找到圖像的位置來自動下載。所以這回到我原來的問題 - 如何在沒有瀏覽器的情況下直接使用腳本獲取圖像？ – JoeCool 2009-10-09 14:37:55

與運行該網站的人聯繫並詢問數據集。如果你試圖以任何可疑的方式下載許多圖像，那麼你會以相當快的速度結束他們的殺人名單，這意味着你不會再從他們那裏得到任何東西。

CAPTCHA旨在保護人們免受濫用，您所做的從他們的角度看起來就像是虐待。

來源

2009-10-09 14:20:29

腳本下載CAPTCHA圖像

回答

相關問題