我正在解決的問題有許多簡單的解決方案,但我需要的是找到減少過程所需的時間和內存的方法。查找多個表中的主鍵
另一方面,我有一張桌子上有幾百個ID和另外40個月份的桌子上的數字。 每個表格都有50萬到100萬個記錄,每個記錄都有唯一的ID。每張桌子都有很少的變量,但我只需要其中的10-20個。
我需要查找表來查找最新的表,當基表發生特定的id並獲取我需要的變量值時。 最新的月份表每天都在計算中,因此前幾個月的許多id可能會再次出現,所以我不能只創建索引字典(last.id和變量)一次。此外,我無法負擔每天都基於所有表創建新字典。
我想出了一些想法,但我需要你的幫助,以找到最高效的理念:
連接具有需要,升序排列ID和月變量的所有月度表,選擇最後.id使用數據步驟。使用連接或合併基表。 問題:設置所有表需要太多的內存。 或者我用循環中的proc append。不幸的是時間和記憶效率都不高。
內部連接與所有表分開循環: 內存不足,但非常耗時。
基於除最新版本之外的所有月份創建詞典並每天更新它。 問題:大字典表。
現在我正在尋找聰明的概念如何解決這類問題。也許哈希對象..但如何?
如果您對此案例給我一些反饋,我將不勝感激。
謝謝!