我有500個鏈接要下載,並且想要通過例如10個項目對它們進行批處理。luigi批處理模塊用於直批處理任務
這個僞代碼是怎麼樣的?
class BatchJobTask(luigi.Task)
items = luigi.Parameter()
def run(self):
listURLs = []
with ('urls_chunk', 'r') as urls
for line in urls:
listURLs.append('http://ggg'+line+'.org')
10_urls = listURLs[0:items] #10 items here
for i in 10_urls:
req = request.get(url)
req.contents
def output(self):
return self.LocalTarger("downloaded_filelist.txt")
class BatchWorker(luigi.Task)
def run(self)
# Here I should run BatchJobTask from 0 to 10, next 11 - 21 new etc...
會是怎樣?
你的網址列表在哪裏? – MattMcKnight
我已經更新了第一篇文章 – GarfieldCat
我的意思是這個URL列表存儲在哪裏?在一個隊列中,一個數據庫,一個文件?你需要做的是弄清楚那件東西有多少,然後從那裏建立你的大塊。我將在下面舉一個例子,但由於您未指定問題的相關部分,因此它不太可能與您的問題相關。 – MattMcKnight