2011-04-01 25 views

回答

2

下面是如何獲取HTTP服務器上文件的文件大小的示例。

import urllib2 

def sizeofURLResource(url): 
    """ 
    Return the size of an resource at 'url' in bytes 
    """ 
    info = urllib2.urlopen(url).info() 
    return info.getheaders("Content-Length")[0] 

還有這裏構建web刮削器的庫:http://dev.scrapy.org/,但我不知道很多關於它(只是GOOGLE上搜索老老實實)。

+0

是的,我也想通了。我的一個想法是從主頁面解析所有「a href」-s(我已經編寫了一個工具來實現這一點),並不斷閱讀http頭信息以找到適當大小的頁面/文件。如果沒有找到,請在上一步獲得的頁面列表上重複解析(對於深度說5,同樣檢查你沒有處理任何已經處理過的內容)。我認爲這很簡單,理論上它應該起作用。也許我並不需要專門的網絡爬蟲/刮板的所有功能。 – pldimitrov 2011-04-02 10:21:52

1

以下是我做到的。請參閱下面的代碼。

import urllib2 
url = 'http://www.ueseo.org' 
r = urllib2.urlopen(url) 
print len(r.read())