2017-07-12 28 views
0

我有一個從大型數據存儲中讀取數百萬個ID的轉換。緩存要在不同轉換中使用的數據的最佳方法

我想那些莫名其妙的ID存儲在列表或HashMap中。

我對其他十幾個轉變。 這些轉換中的每一個都從其他不同的子數據存儲獲取輸入數據(ID)。

我想要做的是,在UDJC,因爲我得到的ID從孩子的數據存儲,以某種方式檢查是否每個ID已在超大型ID列表。

由於性能原因,我不能要求每一個轉型的大型商店。

如何創建/合併,我可以在我的後面UDJCs使用大型ID列表?

感謝

+0

你確定你是不是複製'唯一行(HasSet)'功能? – AlainD

+0

Emdedded數據庫?例如h2 – simar

回答

0

我結束了序列化的ID到一個文件中的一個轉變和反序列化在隨後的轉換文件。

+0

關於重複性的風險,你確定你不重複'UniqueRow的功能嗎?步 ?如果ids的數量非常大,那麼使用'Unique Row'前面的'sort',並在tmp文件中存儲值(這與您的策略是一樣的,但是它很難比Kettle更好)。另外,如果您需要通過連接多個鍵來生成一個ID,請使用「組合查找/更新」步驟。 – AlainD

相關問題