如何通過Python程序下載完整的網頁？

目前我有一個程序只能下載給定頁面的HTML。現在我想要一個可以下載網頁的所有文件的程序，包括HTML，CSS，JS和圖像文件（與我們在任何網站的ctrl-s上獲得的相同）。如何通過Python程序下載完整的網頁？

我目前的計劃是：

import urllib 
urllib.urlretrieve ("https://en.wikipedia.org/wiki/Python_%28programming_language%29", "t3.html")

我曾參觀過在堆棧溢出很多這樣的問題，但他們都只是下載HTML文件。

來源

2015-07-03 Rahul Satal

因此，您想要瀏覽HTML中的鏈接並下載它們指向的內容？請注意，維基百科頁面包含指向其他頁面的鏈接;你想這樣做遞歸？ – jonrsharpe

是的，我想要下載主鏈接中的所有鏈接以及他們的CSS和js文件。 –

或者只是告訴我如何只下載一個給定頁面的css和js文件 –

以下實現使您能夠獲取子HTML網站。爲了獲得您需要的其他文件，可以進行更多的開發。我坐在depth變量爲您設置您要解析的最大sub_websites。

import urllib2 
from BeautifulSoup import * 
from urlparse import urljoin 


def crawl(pages, depth=None): 
    indexed_url = [] # a list for the main and sub-HTML websites in the main website 
    for i in range(depth): 
     for page in pages: 
      if page not in indexed_url: 
       indexed_url.append(page) 
       try: 
        c = urllib2.urlopen(page) 
       except: 
        print "Could not open %s" % page 
        continue 
       soup = BeautifulSoup(c.read()) 
       links = soup('a') #finding all the sub_links 
       for link in links: 
        if 'href' in dict(link.attrs): 
         url = urljoin(page, link['href']) 
         if url.find("'") != -1: 
           continue 
         url = url.split('#')[0] 
         if url[0:4] == 'http': 
           indexed_url.append(url) 
     pages = indexed_url 
    return indexed_url 


pagelist=["https://en.wikipedia.org/wiki/Python_%28programming_language%29"] 
urls = crawl(pagelist, depth=2) 
print urls

來源

2015-07-04 13:02:04

嘗試Python庫Scrapy。您可以編程Scrapy以遞歸方式掃描網站，通過下載其網頁，掃描以下鏈接：

一個開源和協作框架，用於從網站提取您需要的數據。以一種快速，簡單但可擴展的方式。

來源

2015-07-03 11:31:18 barny

謝謝@ barny，但你能告訴它可以使用beautifulSoup lib或HTTP請求bcoz實現它我有一些知識。 –

天哪，我的答案已修改。閱讀python，err，Python庫Scrapy文檔，例如FAQ作爲其第一個答案：Scrapy提供了一種用於提取數據的內置機制（稱爲選擇器），但您可以輕鬆使用BeautifulSoup（或lxml）。 http://doc.scrapy.org/en/1.0/faq.html – barny

好的，讓我先看看scrapy doc。 –

如何通過Python程序下載完整的網頁？

回答

相關問題