正如標題所述,我想知道是否有方法來獲取生成的頁面的HTML代碼。很明顯,我可以用網頁開發工具(瀏覽器內置或外部程序)檢查頁面並獲取它,但我真的很想自動完成。也許使用Fiddler的API可能是可能的?是否有可能以編程方式獲取生成的網頁源代碼?
謝謝!
正如標題所述,我想知道是否有方法來獲取生成的頁面的HTML代碼。很明顯,我可以用網頁開發工具(瀏覽器內置或外部程序)檢查頁面並獲取它,但我真的很想自動完成。也許使用Fiddler的API可能是可能的?是否有可能以編程方式獲取生成的網頁源代碼?
謝謝!
你也許可以用Python編寫一個腳本,該腳本會帶一個變量(URL),並將其插入一個可下載網頁的命令(如wget)之後。
谷歌搜索,我發現這解析HTML文件:也許你可以wget的中的index.html,並使用其中的一個: How do you parse and process HTML/XML in PHP?
「源」沒有得到通過JavaScript頁面加載後改變,它是從生成的文檔對象模型(DOM)生成的,它是被更改的源。正是這個DOM被轉換爲GUI,並且只要不重新加載頁面,就會隨着每次更改而被更改。
DOM不是一串HTML代碼,它是頁面在內存中的分層對象表示。瀏覽器在修改DOM時不會保留最新的平面文件表示,這就是爲什麼當您查看源代碼時,您只能看到最初通過HTTP發送給瀏覽器的內容。
在開發人員工具(如Firebug)中,頁/ DOM的節點對節點表示是最接近重新生成源代碼(AFAIK)而無需自己構建一些新工具的。
你的意思是從頁面本身的JavaScript中獲取頁面的源代碼,或者使用計算機上運行的腳本獲取目標URL的源代碼(如果是的話,你使用的是特定語言)? – 2013-03-09 20:41:30
或者,您是否正在尋找Fiddler的API? – 2013-03-09 20:44:05
http://phantomjs.org/有興趣嗎? – 2013-03-09 20:49:05