2014-02-20 122 views
0

正如我的標題可能表明我正在嘗試使用腳本顯示和下載html頁面。 我已經嘗試了不同的python(和ActionScript 3)方法,但他們都沒有實際顯示網站上的整個可見內容。無法下載整個html頁面

但是他們都表現出一定的javascipt的代碼

有一些方法可以讓我能查出可見的內容(我要下載動態由JavaScript創建的網頁)?我想要的功能類似於「全選 - 複製」 - windows方法。

+3

您需要使用[支持JavaScript的瀏覽器模擬器](http://stackoverflow.com/q/21777306/190597)。 – unutbu

+0

機械化? http://wwwsearch.sourceforge.net/mechanize/ – markcial

+0

我真的在Python中使用這個包安裝功能時遇到麻煩。我想我已經成功安裝了pip,但是在使用pip安裝lxml時,我得到了很多標準的cmd回顯,直到「C:\ Python33 \ lib \ distutils \ dist.py:258:UserWarning:Unknown distribution option:'extra-require' 」。以下很多類似的錯誤... – user3257755

回答

0

既然你寫

我想要的功能類似於「全選 - 複製」 - 窗口 方法。

我知道你想下載網頁的「源代碼」。如果這是你想要的,那麼這就是你需要做的。

import urllib.request 
import re 

urls = ["http://google.com","http://yahoo.com"]; 

i=0; 
while i < len(urls):  
    htmlfile = urllib.request.urlopen(urls[i]); 
    htmltext = htmlfile.read(); 
    print(htmltext); 
    print("\n"); 
    i=i+1; 

它讀取URL和打印他們的源代碼。