使用最少磁盤操作的大數據 - MapReduce

我需要處理遠程服務器上數千個文件中的10TB文本。我想在我的本地機器上使用3GB RAM，50GB硬盤來處理它們。我需要一個抽象層從遠程服務器上按需下載文件，處理它們（mapreduce）然後丟棄它們，加載一些更多的文件。使用最少磁盤操作的大數據 - MapReduce

關於HDFS我需要將它們負載HDFS，然後事情應該是簡單，但我需要做的內存管理自己。我想要一些照顧這個的東西。例如HDFS中的遠程鏈接或HDFS中的符號鏈接到遠程文件，該文件將其下載並加載到內存中，然後丟棄它們移動到更多文件。

所以現在我用Amplab火花來爲我做並行處理，但在這個層面上處理它放棄。

我想要的東西一個襯像火花：

myFilesRDD.map(...).reduce(...)

RDD應該照顧它

來源

2013-04-27 Morteza Shahriari Nia

的Map/Reduce是分手了工作機器集羣。這聽起來像你有一臺機器，你的本地機器。你可能想看看R，因爲它有內置的命令來通過網絡加載數據。開箱即用，它不會給你所描述的類似虛擬內存的外觀，但如果你可以容忍編寫一個迭代循環並自己將數據加載到塊中，那麼R不僅可以爲你提供遠程數據加載您尋求，R豐富的可用庫的集合可以促進您可能需要的任何類型的處理。

來源

2013-05-29 23:39:23

使用最少磁盤操作的大數據 - MapReduce

回答

相關問題