我有一個Python腳本,我想每天運行,我寧願只需要1-2個小時即可運行。目前,它已經設置爲針對給定URL命中4個不同的API,捕獲結果,然後將數據保存到PostgreSQL數據庫中。問題是,我有超過160,000個URL需要經過,腳本花費了很長時間 - 我進行了一些初步測試,並且要花36個小時才能瀏覽每個網址的當前格式。所以,我的問題歸結爲:我應該優化腳本以同時運行多個線程嗎?還是應該擴大我使用的服務器數量?很明顯,第二種方法會更昂貴,所以我更願意在同一個實例上運行多個線程。提高Python腳本的速度:多線程還是多個實例?
我正在使用我創建的庫(SocialAnalytics),它提供了訪問不同API端點並解析結果的方法。以下是我已經配置了我的腳本:
import psycopg2
from socialanalytics import pinterest
from socialanalytics import facebook
from socialanalytics import twitter
from socialanalytics import google_plus
from time import strftime, sleep
conn = psycopg2.connect("dbname='***' user='***' host='***' password='***'")
cur = conn.cursor()
# Select all URLs
cur.execute("SELECT * FROM urls;")
urls = cur.fetchall()
for url in urls:
# Pinterest
try:
p = pinterest.getPins(url[2])
except:
p = { 'pin_count': 0 }
# Facebook
try:
f = facebook.getObject(url[2])
except:
f = { 'comment_count': 0, 'like_count': 0, 'share_count': 0 }
# Twitter
try:
t = twitter.getShares(url[2])
except:
t = { 'share_count': 0 }
# Google
try:
g = google_plus.getPlusOnes(url[2])
except:
g = { 'plus_count': 0 }
# Save results
try:
now = strftime("%Y-%m-%d %H:%M:%S")
cur.execute("INSERT INTO social_stats (fetched_at, pinterest_pins, facebook_likes, facebook_shares, facebook_comments, twitter_shares, google_plus_ones) VALUES(%s, %s, %s, %s, %s, %s, %s, %s);", (now, p['pin_count'], f['like_count'], f['share_count'], f['comment_count'], t['share_count'], g['plus_count']))
conn.commit()
except:
conn.rollback()
你可以看到每個調用API使用Requests library,這是一個同步的,阻塞的事情。經過一些初步研究後,我發現Treq,這是一個在Twisted之上的API。 Twisted的異步非阻塞特性似乎是改進我的方法的好選擇,但我從來沒有使用它,我不確定它究竟會如何(以及如何)幫助我實現我的目標。
任何指導非常感謝!
各種url請求是否需要共享內存空間?如果不是,一個簡單的解決方案將是使用多處理。對於一些快速代碼,請參閱:http://stackoverflow.com/questions/3842237/parallel-processing-in-python – duhaime 2014-11-09 02:44:41
不,他們不需要共享內存空間。我可以考慮削減所需時間的唯一方法是運行10個進程,每個進程處理自己的URL。但是,我並不確定如何完成此操作。我用這種方法走向正確的方向嗎? https://gist.github.com/anonymous/b337afbd8f92d3991b47 – Abundnce10 2014-11-09 17:55:42
對不起,剛剛得到了這個。似乎所有的工作:) – duhaime 2014-11-09 21:35:41