2011-10-06 70 views
2

我最近創建了一個執行一些自然語言處理任務並在解決我的問題方面工作得很好的python腳本。但花了9個小時。我首先研究了使用hadoop將問題分解成多個步驟,並希望利用通過使用Amazon Web Services獲得的可擴展並行處理。Python中的並行處理選項

但是我的一位朋友指出,Hadoop真的需要在磁盤上存儲大量數據,因此您需要執行許多簡單的操作。在我的情況下,我有一個相對較小的初始數據集(低於100的Mbs),在這個數據集上執行許多複雜的操作,在此過程中佔用大量內存並花費很多時間。

我的腳本中可以使用什麼框架來利用AWS(或類似服務)上的可伸縮羣集?

回答

0

This example演示瞭如何在單臺機器上使用進程來執行類似MapReduce的腳本。其次,如果可以,請嘗試緩存中間結果。我爲了NLP任務做了這個,並且獲得了顯着的加速。

0

我的包裹,jug,可能是非常適合您的需求。沒有更多的信息,我無法確定代碼的外觀如何,但是我設計的代碼是針對次級hadoop大小的問題。

+0

我給它一個快速閱讀 - 更像芹菜壺或更像Hadoop?罐子解決了什麼問題他們不解決? – Trindaz

+0

更像芹菜,但它有不同的風味。它的開銷比Hadoop少(但不能擴展)。 – luispedro