1
我正在處理這個新任務,其中我的輸入csv文件有大約200到300萬條記錄,我的要求是對傳入數據進行排序執行查找的鍵值並插入到目標表中。其中一個建議是編寫一個java插件,將數據分類並存儲在多個臨時文件中(比如說每百萬個文件)並從那裏檢索。我正在考慮在pentaho中使用排序步驟並設置開始的份數。但我不確定什麼是最好的方法。任何人都可以建議如何去做這件事。謝謝。在Pentaho中排序200-300萬條記錄的最佳方法?
我嘗試了一些測試與pentaho排序步驟,它工作正常,當我使用行生成器的步驟,但凍結或崩潰時,我使用的CVS輸入。不知道爲什麼。 – DUnkn0wn1
可能是因爲你的數據集的大小。確保「延遲轉換」已關閉。嘗試調整可用內存閾值設置。 –
謝謝。這有幫助。減少緩衝區大小也有幫助。 – DUnkn0wn1