2011-06-13 31 views
0

我需要計算3天的相關性。下面給出了一個樣本矩陣。我的問題是,ID可能不是每天都在宇宙中。例如,AAPL可能永遠在宇宙中,但一家公司--CCL可能在我的宇宙中只有2天。我會很感激矢量化的解決方案。因爲相關矩陣的大小可能會有所不同,所以我可能不得不使用結構/ accumarray等。在MATLAB中3天的滾動相關計算

% col1 = tradingDates, col2 = companyID_asInts, col3 = VALUE_forCorrelation 

rawdata = [ ... 

    734614 1 0.5; 
    734614 2 0.4; 
    734614 3 0.1; 

    734615 1 0.6; 
    734615 2 0.4; 
    734615 3 0.2; 
    734615 4 0.5; 
    734615 5 0.12; 

    734618 1 0.11; 
    734618 2 0.9; 
    734618 3 0.2; 
    734618 4 0.1; 
    734618 5 0.33; 
    734618 6 0.55; 

    734619 2 0.11; 
    734619 3 0.45; 
    734619 4 0.1; 
    734619 5 0.6; 
    734619 6 0.5; 

    734620 5 0.1; 
    734620 6 0.3] ; 

'3天的相關性':

% 734614 & 734615 corr is ignored as this is a 3-day corr 

% 734618_corr = corrcoef(IDs 1,2,3 values are used. ID 4,5,6 is ignored) -> 3X3 matrix 

% 734619_corr = corrcoef(IDs 2,3,4,5 values are used. ID 1,6 is ignored) -> 3X4 matrix 

% 734620_corr = corrcoef(IDs 5,6 values are used. ID 1,2,3,4 is ignored) -> 3X2 matrix 

房地產數據從1995-2011涵蓋Russel1000宇宙,擁有超過410萬行。期望的相關性超過20天。

回答

1

我不會嘗試在這裏得到一個矢量化的解決方案:MATLAB JIT compiler意味着在最近版本的MATLAB上循環通常會一樣快。

您的矩陣看起來很像一個稀疏矩陣:是否有助於將其轉換爲該形式,以便您可以使用數組索引?這大概只有在第三列中的數據就不會是0的作品,否則你就必須保持目前的顯式列表,並使用這樣的事:

dates = unique(rawdata(:, 1)); 
num_comps = max(rawdata(:, 2)); 

for d = 1:length(dates) - 2; 
    days = dates(d:d + 2); 

    companies = true(1, num_comps); 
    for curr_day = days' 
     c = false(1, num_comps); 
     c(rawdata(rawdata(:, 1) == curr_day, 2)) = true; 
     companies = companies & c; 
    end 
    companies = find(companies); 

    data = zeros(3, length(companies)); 
    for curr_day = 1:3 
     for company = 1:length(companies) 
      data(curr_day, company) = ... 
       rawdata(rawdata(:, 1) == days(curr_day) & ... 
         rawdata(:, 2) == companies(company), 3); 
     end 
    end 

    corrcoef(data) 
end 
+0

湯姆你好。矩陣並不稀疏。正如您所提到的,第三列中的數據有時可能爲0(日收益率)。我正嘗試使用某種矢量化方法的for-loop。謝謝! – Maddy 2011-06-13 15:09:31

+0

謝謝湯姆!你的邏輯很好。雖然這樣的代碼每次迭代需要大於1小時。我使用整體邏輯將中心部分修改爲矢量化解決方案: – Maddy 2011-06-14 23:45:06

+0

....... companies = find(companies); %然後 - > 'size_comp = size(companies',1); size_days = size(天,1); daysvec = sort(repmat(days,size_comp,1)); compvec = repmat(companies',size_days,1); matchmat = [daysvec compvec]; (〜,[1 2]),'rows'); %matchmat(:,3)= rawdata(loc,3); newmat = rawdata(loc,:); %zzzz = reshape(matchmat(:,3),size_comp,size_days)'; finalmat = reshape(newmat(:,3),size_comp,size_days)'; corrcoef(finalmat)':單次迭代現在只需要8.9秒!非常感謝算法! – Maddy 2011-06-14 23:52:11