有沒有一種很好的方法來使用python下載大量文件?此代碼足以快速下載大約100個左右的文件。但我需要下載300,000個文件。很明顯,他們都是非常小的文件(或者我不會下載他們的300,000 :)),所以真正的瓶頸似乎是這個循環。有人有想法嗎?也許使用MPI或線程?使用python下載很多文件
我只需要與瓶頸住在一起嗎?或者有更快的方法,可能甚至不使用python?
(I包括只是爲了完整性起見代碼的完整開頭)
from __future__ import division
import pandas as pd
import numpy as np
import urllib2
import os
import linecache
#we start with a huge file of urls
data= pd.read_csv("edgar.csv")
datatemp2=data[data['form'].str.contains("14A")]
datatemp3=data[data['form'].str.contains("14C")]
#data2 is the cut-down file
data2=datatemp2.append(datatemp3)
flist=np.array(data2['filename'])
print len(flist)
print flist
###below we have a script to download all of the files in the data2 database
###here you will need to create a new directory named edgar14A14C in your CWD
original=os.getcwd().copy()
os.chdir(str(os.getcwd())+str('/edgar14A14C'))
for i in xrange(len(flist)):
url = "ftp://ftp.sec.gov/"+str(flist[i])
file_name = str(url.split('/')[-1])
u = urllib2.urlopen(url)
f = open(file_name, 'wb')
f.write(u.read())
f.close()
print i
'multiprocessing'將允許您從其他內核獲得一些加速(您將需要將較大的列表分割爲X個較小的列表,並將一個列表分配給每個核心) –
您是否有任何控制權的服務器?您是否可以在需要時讓服務器壓縮併發送有問題的文件? – dawg
@dawg:我不知道,否則在飛行中抓住他們可能是最好的解決方案。 – sfortney