有很多網頁只是運行腳本而沒有任何材料。 無論如何看到頁面源代碼而沒有實際訪問頁面,因爲它只是重定向你?在沒有實際訪問頁面的情況下獲取網頁源代碼
將使用一個html解析器工作來做到這一點?我使用simpleHTMLdom來解析頁面?
有很多網頁只是運行腳本而沒有任何材料。 無論如何看到頁面源代碼而沒有實際訪問頁面,因爲它只是重定向你?在沒有實際訪問頁面的情況下獲取網頁源代碼
將使用一個html解析器工作來做到這一點?我使用simpleHTMLdom來解析頁面?
在Firefox中您可以使用查看源代碼協議,以只查看網站的源代碼,而無需實際渲染它或它的JavaScript執行。
實例:視圖出處:http://stackoverflow.com/q/5781021/298479(複製到地址欄)
哈哈,有趣的是有多少人實際上覆制了該鏈接 - *「您已經獲得了」宣傳者「徽章,用於獲取網頁源代碼而無需實際訪問頁面。」*。我現在等待銀/黃金版本:p – ThiefMaster 2012-03-22 06:39:12
是的,簡單的解析HTML將讓你的客戶端(JavaScript)代碼。
當這些頁面被用戶通過瀏覽器,瀏覽器中運行的代碼和重定向,但是當你訪問使用刮刀或你自己的程序吧,代碼不運行,並且可以得到靜態腳本。
Ofcourse,你不能訪問服務器端(PHP)。這不可能。
如果你不需要自動化它,只需看看你的瀏覽器(Firebug或Chrome開發工具)的響應內容爲第一個網址 – Jay 2011-04-25 17:27:29
獲得頁面的HTML源代碼的唯一方法是發送HTTP請求到Web服務器並接收答案等於訪問該頁面。
如果您使用的是基於* nix的操作系統,請嘗試使用終端的curl。
的wget或猞猁也將工作做好,如果你有機會獲得一個命令行Linux的shell:
wget的http://myurl 猞猁突降http://myurl
如果你想HTML-通過執行您將遇到的JavaScript問題,刪除構建其內容/視圖的90%以上頁面的內容,除非您渲染到屏幕(隱藏),然後進行刮取。否則,你會最終抓取幾個腳本標籤,這對你來說沒有什麼好處。
例如如果我試圖抓取我的Gmail收件箱頁面,它是一個空的HTML頁面,只有幾個分散的腳本標記(可能是幾乎所有基於GWT的應用程序的典型代碼)
您正在抓取的頁面/網站是否具有API?如果沒有,是否值得問他們是否有一個在作品?
通常,這些類型的工具,沿着「竊取」信息和「共享」的信息,因此您可能需要小心行事之間的細線運行。
我不知道這是找到我在我的大學的漏洞競爭的一部分。我已經確定我正在從這一頁重定向。我覺得這個重定向頁面上有東西。 – user434885 2011-04-25 17:36:47
如果你需要一個快速&骯髒的修復,您可以禁用JavaScript和元重定向(Internet Explorer可以在Internet選項對話框禁用這些火狐可以使用NoScript的插件進行同樣的效果。)
這將不會有任何服務器端重定向,但會阻止客戶端重定向,並允許您查看文檔的HTML源代碼。
有啥問題? – 2011-04-25 17:23:59
你想從重定向頁面看到生成的HTML嗎? – Jay 2011-04-25 17:25:05
沒有。你能看到什麼而不看它嗎? – Yada 2011-04-25 17:25:23