2010-01-26 40 views
1

我有一個網頁,有如下內容(我已經改變了網址爲隱私的目的SRC標籤,否則查看頁面源是相同的):如何刮用JavaScript從網站圖片和servlet

<HTML> 
<BODY> 

<script type="text/javascript" src="http://localhost/servlet?publicKey=abcdefg12345678&amp"></script> 

</BODY> 
</HTML> 

生成的頁面在瀏覽器中顯示圖像,我試圖抓取該圖像。在我刮掉圖像後,我嘗試爲圖像建立索引(請參閱www.tineye.com以瞭解圖像搜索引擎的想法)並存儲它們。如果有人知道如何從這些網站上刮取圖片,請告訴我。

注:SRC不包含有關圖像的任何信息......它只調用使用公鑰作爲參數給定的servlet。我上面發佈的內容完全是我在瀏覽器(Firefox)中單擊查看 - >頁面源時看到的。當然,我已經更改了隱私問題的實際URL和公鑰,否則所有內容都是相同的。

我似乎已經用於一些橫幅類似的技術:http://coldjava.hypermart.net/servlets/banner.htm

+0

另一種方法是在瀏覽器中打開網頁,把網頁的快照和寫屏幕抓取代碼來獲得圖像。我不確定是否有一個更簡單的解決方案來解決我的問題,但如果有問題的話,這將非常棒! :) – Kiril 2010-01-26 21:41:04

回答

1

中的JavaScript可能是操縱DOM和添加圖片。因此,圖像(爲.jpg,.png或.gif)應該是某個JavaScript文件裏面,應該是這個樣子:

var image = new Image("/path/to/image.jpg"); 

您可以使用正則表達式過濾路徑和文件名出的javascript碼。

+0

好的,我更新了帖子,以反映發生了什麼。當我在Firefox中時,按View-> Page Source,然後顯示如上所示的確切源代碼。爲了保護一些私人信息,我最初修改了這個url,但我已經將它更改爲現實中的外觀。頁面源代碼中沒有其他內容,上面看到的5行是我查看頁面源代碼時看到的所有內容。 – Kiril 2010-01-26 21:31:41

+0

你有沒有嘗試用下載管理器(不是Firefox)下載html文件並查看源代碼? – svens 2010-01-26 21:50:02

+0

@svens我已經在本地保存的頁面,我看源在記事本+ +並沒有什麼不同。這與我在firefox中看到的一樣。 – Kiril 2010-01-26 21:56:09

1

而是保存HTML文件的本地副本,您應該保存JavaScript文件的本地副本,看看它是如何準確地把圖象到HTML文件的DOM。這應該讓你找出如何構建請求來獲取你需要的圖像。