我是RRE的新手,我遇到了rxMerge函數的問題。rxMerge因子水平
我想合併兩個xdf數據集的因子列有不同數量的級別。我想要一個內部連接只保留匹配的級別。我得到以下錯誤:
ERROR: Factor key 'mat' has mismatched levels. Call rxFactors to make the levels the same, then call rxSort on the input files.
這裏是我的合併功能:
rxMergeXdf(inFile1 = cible_2015_xdf, inFile2 = data_2015,
outFile = all_data_2015,
matchVars = "mat",
type = "inner",
varsToDrop2 = "ref",
overwrite=TRUE
)
我已經看到了與始發地和目的地航班的通知(http://www.revolutionanalytics.com/sites/default/files/data-step-white-paper.pdf)個例,但我想我的輸出只有匹配級別的數量。我在兩個數據集中都有獨特的級別,級別是ID號(帶有字母,因此我無法將它們傳遞給數字值)。
感謝很多提前
Ouriel
我已經在一個非常小的數據集上測試過它,它工作的很棒!但根據我的實際數據,rxFactors函數需要幾小時(300萬觀察值)。沒有辦法來優化這個? –
嗯。可能有一些方法可以優化。多少個因子水平? xdf中的塊有多大?多少列? –