2
我打算在〜100GB文件上使用mincemeat.py來執行我的map reduce任務。從mincemeat看到示例代碼後,似乎需要輸入內存中的字典作爲數據源。那麼,提供我的大文件作爲百果餡的數據源的正確方法是什麼?巨大的文件作爲mincemeat.py的數據源
鏈接到肉餡:https://github.com/michaelfairley/mincemeatpy
我打算在〜100GB文件上使用mincemeat.py來執行我的map reduce任務。從mincemeat看到示例代碼後,似乎需要輸入內存中的字典作爲數據源。那麼,提供我的大文件作爲百果餡的數據源的正確方法是什麼?巨大的文件作爲mincemeat.py的數據源
鏈接到肉餡:https://github.com/michaelfairley/mincemeatpy
嘗試迭代器? – dmitry
似乎我必須事先創建一個完整的字典。你想讓我試試文件迭代器嗎?但是,我需要將文件內容添加到字典。這是我有點困惑。 – Karthikeyan
引用來自github頁面:datasource:...你可以使用一個字典,或任何其他數據結構 實現迭代器協議(__iter __()和next())返回所有鍵...似乎它是唯一合理的方式去與巨大的文件,雖然我想知道確切的實際解決方案以及你:) – dmitry