0
我需要抓取幾千個主機的列表,並找到至少兩個根源大於某個值的文件作爲參數。任何流行的(基於Python的?)工具可能有幫助嗎?如何抓取特定大小的文件的網頁
我需要抓取幾千個主機的列表,並找到至少兩個根源大於某個值的文件作爲參數。任何流行的(基於Python的?)工具可能有幫助嗎?如何抓取特定大小的文件的網頁
下面是如何獲取HTTP服務器上文件的文件大小的示例。
import urllib2
def sizeofURLResource(url):
"""
Return the size of an resource at 'url' in bytes
"""
info = urllib2.urlopen(url).info()
return info.getheaders("Content-Length")[0]
還有這裏構建web刮削器的庫:http://dev.scrapy.org/,但我不知道很多關於它(只是GOOGLE上搜索老老實實)。
以下是我做到的。請參閱下面的代碼。
import urllib2
url = 'http://www.ueseo.org'
r = urllib2.urlopen(url)
print len(r.read())
是的,我也想通了。我的一個想法是從主頁面解析所有「a href」-s(我已經編寫了一個工具來實現這一點),並不斷閱讀http頭信息以找到適當大小的頁面/文件。如果沒有找到,請在上一步獲得的頁面列表上重複解析(對於深度說5,同樣檢查你沒有處理任何已經處理過的內容)。我認爲這很簡單,理論上它應該起作用。也許我並不需要專門的網絡爬蟲/刮板的所有功能。 – pldimitrov 2011-04-02 10:21:52