我有一個文本文件(Input.txt
),其中包含domains
,總計約爲35 Millions domains
。在Bash/Shell中並行處理的高效方法?
#Input.txt
google.com
cnn.com
bbc.com
........
現在,我有一個python腳本來檢查每個狀態代碼,並在文本文件(INPUT.TXT)相關的所有領域。對於較小的一套,我做
for i in $(cat Input.txt);do python status_check.py $i;done > out_file.txt
如果我以這種方式處理,這可能需要年齡檢查的狀態代碼,所有35個萬個域名。
我並不熟悉並行處理。有人可以幫助我,如何通過使用shell/bash/any節省時間來完成任務?
[並行bash腳本處理命令(可能的重複http://stackoverflow.com/questions/19543139/bash-script-處理命令並行) – tworec
首先,你爲什麼要在地球上這樣做?其次,改變你的Python腳本,以便它可以在一次調用中處理多個域。最後,用'GNU Parallel'像這樣運行:'parallel -m -a Input.txt python status_check.py' –