2013-07-29 19 views
2

我打算在〜100GB文件上使用mincemeat.py來執行我的map reduce任務。從mincemeat看到示例代碼後,似乎需要輸入內存中的字典作爲數據源。那麼,提供我的大文件作爲百果餡的數據源的正確方法是什麼?巨大的文件作爲mincemeat.py的數據源

鏈接到肉餡:https://github.com/michaelfairley/mincemeatpy

+0

嘗試迭代器? – dmitry

+0

似乎我必須事先創建一個完整的字典。你想讓我試試文件迭代器嗎?但是,我需要將文件內容添加到字典。這是我有點困惑。 – Karthikeyan

+2

引用來自github頁面:datasource:...你可以使用一個字典,或任何其他數據結構 實現迭代器協議(__iter __()和next())返回所有鍵...似乎它是唯一合理的方式去與巨大的文件,雖然我想知道確切的實際解決方案以及你:) – dmitry

回答

0

望着例子和概念,我本來以爲你會理想:

  1. 生產數據源的迭代器,
  2. 泄露了文件轉換成若干個服務器上的大量大文件,然後
  3. 合併結果。
+0

感謝您的建議,讓我檢查一下這個方向。 – Karthikeyan