我需要處理遠程服務器上數千個文件中的10TB文本。我想在我的本地機器上使用3GB RAM,50GB硬盤來處理它們。我需要一個抽象層從遠程服務器上按需下載文件,處理它們(mapreduce)然後丟棄它們,加載一些更多的文件。使用最少磁盤操作的大數據 - MapReduce
關於HDFS我需要將它們負載HDFS,然後事情應該是簡單,但我需要做的內存管理自己。我想要一些照顧這個的東西。例如HDFS中的遠程鏈接或HDFS中的符號鏈接到遠程文件,該文件將其下載並加載到內存中,然後丟棄它們移動到更多文件。
所以現在我用Amplab火花來爲我做並行處理,但在這個層面上處理它放棄。
我想要的東西一個襯像火花:
myFilesRDD.map(...).reduce(...)
RDD應該照顧它