2013-04-27 61 views
0

我需要處理遠程服務器上數千個文件中的10TB文本。我想在我的本地機器上使用3GB RAM,50GB硬盤來處理它們。我需要一個抽象層從遠程服務器上按需下載文件,處理它們(mapreduce)然後丟棄它們,加載一些更多的文件。使用最少磁盤操作的大數據 - MapReduce

關於HDFS我需要將它們負載HDFS,然後事情應該是簡單,但我需要做的內存管理自己。我想要一些照顧這個的東西。例如HDFS中的遠程鏈接或HDFS中的符號鏈接到遠程文件,該文件將其下載並加載到內存中,然後丟棄它們移動到更多文件。

所以現在我用Amplab火花來爲我做並行處理,但在這個層面上處理它放棄。

我想要的東西一個襯像火花:

myFilesRDD.map(...).reduce(...)

RDD應該照顧它

回答

0

的Map/Reduce是分手了工作機器集羣。這聽起來像你有一臺機器,你的本地機器。你可能想看看R,因爲它有內置的命令來通過網絡加載數據。開箱即用,它不會給你所描述的類似虛擬內存的外觀,但如果你可以容忍編寫一個迭代循環並自己將數據加載到塊中,那麼R不僅可以爲你提供遠程數據加載您尋求,R豐富的可用庫的集合可以促進您可能需要的任何類型的處理。

相關問題