如何刮用JavaScript從網站圖片和servlet

我有一個網頁，有如下內容（我已經改變了網址爲隱私的目的SRC標籤，否則查看頁面源是相同的）：如何刮用JavaScript從網站圖片和servlet

<HTML> 
<BODY> 

<script type="text/javascript" src="http://localhost/servlet?publicKey=abcdefg12345678&amp"></script> 

</BODY> 
</HTML>

生成的頁面在瀏覽器中顯示圖像，我試圖抓取該圖像。在我刮掉圖像後，我嘗試爲圖像建立索引（請參閱www.tineye.com以瞭解圖像搜索引擎的想法）並存儲它們。如果有人知道如何從這些網站上刮取圖片，請告訴我。

注：SRC不包含有關圖像的任何信息......它只調用使用公鑰作爲參數給定的servlet。我上面發佈的內容完全是我在瀏覽器（Firefox）中單擊查看 - >頁面源時看到的。當然，我已經更改了隱私問題的實際URL和公鑰，否則所有內容都是相同的。

我似乎已經用於一些橫幅類似的技術：http://coldjava.hypermart.net/servlets/banner.htm

來源

2010-01-26 Kiril

另一種方法是在瀏覽器中打開網頁，把網頁的快照和寫屏幕抓取代碼來獲得圖像。我不確定是否有一個更簡單的解決方案來解決我的問題，但如果有問題的話，這將非常棒！ :) – Kiril 2010-01-26 21:41:04

中的JavaScript可能是操縱DOM和添加圖片。因此，圖像（爲.jpg，.png或.gif）應該是某個JavaScript文件裏面，應該是這個樣子：

var image = new Image("/path/to/image.jpg");

您可以使用正則表達式過濾路徑和文件名出的javascript碼。

來源

2010-01-26 21:19:32

好的，我更新了帖子，以反映發生了什麼。當我在Firefox中時，按View-> Page Source，然後顯示如上所示的確切源代碼。爲了保護一些私人信息，我最初修改了這個url，但我已經將它更改爲現實中的外觀。頁面源代碼中沒有其他內容，上面看到的5行是我查看頁面源代碼時看到的所有內容。 – Kiril 2010-01-26 21:31:41

你有沒有嘗試用下載管理器（不是Firefox）下載html文件並查看源代碼？ – svens 2010-01-26 21:50:02

@svens我已經在本地保存的頁面，我看源在記事本+ +並沒有什麼不同。這與我在firefox中看到的一樣。 – Kiril 2010-01-26 21:56:09

而是保存HTML文件的本地副本，您應該保存JavaScript文件的本地副本，看看它是如何準確地把圖象到HTML文件的DOM。這應該讓你找出如何構建請求來獲取你需要的圖像。

來源

2010-01-26 22:02:29

如何刮用JavaScript從網站圖片和servlet

回答

相關問題