巨大的文件作爲mincemeat.py的數據源

我打算在〜100GB文件上使用mincemeat.py來執行我的map reduce任務。從mincemeat看到示例代碼後，似乎需要輸入內存中的字典作爲數據源。那麼，提供我的大文件作爲百果餡的數據源的正確方法是什麼？巨大的文件作爲mincemeat.py的數據源

嘗試迭代器？ – dmitry

似乎我必須事先創建一個完整的字典。你想讓我試試文件迭代器嗎？但是，我需要將文件內容添加到字典。這是我有點困惑。 – Karthikeyan

引用來自github頁面：datasource：...你可以使用一個字典，或任何其他數據結構實現迭代器協議（__iter __（）和next（））返回所有鍵...似乎它是唯一合理的方式去與巨大的文件，雖然我想知道確切的實際解決方案以及你:) – dmitry

望着例子和概念，我本來以爲你會理想：

2013-07-29 09:37:24

感謝您的建議，讓我檢查一下這個方向。 – Karthikeyan

回答