我最近創建了一個執行一些自然語言處理任務並在解決我的問題方面工作得很好的python腳本。但花了9個小時。我首先研究了使用hadoop將問題分解成多個步驟,並希望利用通過使用Amazon Web Services獲得的可擴展並行處理。Python中的並行處理選項
但是我的一位朋友指出,Hadoop真的需要在磁盤上存儲大量數據,因此您需要執行許多簡單的操作。在我的情況下,我有一個相對較小的初始數據集(低於100的Mbs),在這個數據集上執行許多複雜的操作,在此過程中佔用大量內存並花費很多時間。
我的腳本中可以使用什麼框架來利用AWS(或類似服務)上的可伸縮羣集?
我給它一個快速閱讀 - 更像芹菜壺或更像Hadoop?罐子解決了什麼問題他們不解決? – Trindaz
更像芹菜,但它有不同的風味。它的開銷比Hadoop少(但不能擴展)。 – luispedro