緩存要在不同轉換中使用的數據的最佳方法

我有一個從大型數據存儲中讀取數百萬個ID的轉換。緩存要在不同轉換中使用的數據的最佳方法

我想那些莫名其妙的ID存儲在列表或HashMap中。

我對其他十幾個轉變。這些轉換中的每一個都從其他不同的子數據存儲獲取輸入數據（ID）。

我想要做的是，在UDJC，因爲我得到的ID從孩子的數據存儲，以某種方式檢查是否每個ID已在超大型ID列表。

由於性能原因，我不能要求每一個轉型的大型商店。

如何創建/合併，我可以在我的後面UDJCs使用大型ID列表？

感謝

來源

2017-07-12 eych

你確定你是不是複製'唯一行（HasSet）'功能？ – AlainD

Emdedded數據庫？例如h2 – simar

我結束了序列化的ID到一個文件中的一個轉變和反序列化在隨後的轉換文件。

來源

2017-07-17 18:41:29 eych

關於重複性的風險，你確定你不重複'UniqueRow的功能嗎？步？如果ids的數量非常大，那麼使用'Unique Row'前面的'sort'，並在tmp文件中存儲值（這與您的策略是一樣的，但是它很難比Kettle更好）。另外，如果您需要通過連接多個鍵來生成一個ID，請使用「組合查找/更新」步驟。 – AlainD

緩存要在不同轉換中使用的數據的最佳方法

回答

相關問題