如何抓取特定大小的文件的網頁

我需要抓取幾千個主機的列表，並找到至少兩個根源大於某個值的文件作爲參數。任何流行的（基於Python的？）工具可能有幫助嗎？如何抓取特定大小的文件的網頁

2011-04-01 pldimitrov

下面是如何獲取HTTP服務器上文件的文件大小的示例。

import urllib2 

def sizeofURLResource(url): 
    """ 
    Return the size of an resource at 'url' in bytes 
    """ 
    info = urllib2.urlopen(url).info() 
    return info.getheaders("Content-Length")[0]

還有這裏構建web刮削器的庫：http://dev.scrapy.org/，但我不知道很多關於它（只是GOOGLE上搜索老老實實）。

來源

2011-04-02 02:55:08

是的，我也想通了。我的一個想法是從主頁面解析所有「a href」-s（我已經編寫了一個工具來實現這一點），並不斷閱讀http頭信息以找到適當大小的頁面/文件。如果沒有找到，請在上一步獲得的頁面列表上重複解析（對於深度說5，同樣檢查你沒有處理任何已經處理過的內容）。我認爲這很簡單，理論上它應該起作用。也許我並不需要專門的網絡爬蟲/刮板的所有功能。 – pldimitrov 2011-04-02 10:21:52

以下是我做到的。請參閱下面的代碼。

import urllib2 
url = 'http://www.ueseo.org' 
r = urllib2.urlopen(url) 
print len(r.read())

來源

2011-05-22 03:40:15 hejibo

如何抓取特定大小的文件的網頁

回答

相關問題