我有一行數據，說A = [0 1 1 1 0 0]。在一行和1和0的矩陣之間採用xor的更快方法？

矩陣B包含許多行。對於一個虛擬的例子，假設它只是B = [1 1 1 0 1 0; 1 0 0 1 0 1]。

我想找出A和B的一行不同的列數，然後用差異向量找出B的哪一行與A最相似。所以對於上面的例子，A不同於B(1,:)在第1，第4，第5列= 3總差異。 A在第1,2,3,6中與B（2，:)不同，所以我想返回索引1來表示A與B（1，:)最相似。

實際上B有〜50000行，A和B都有大約800列。我現在的代碼找到最相似的行如下：

min(sum(xor(repmat(A,B_rows,1),B),2));

這樣的工作，但它很慢。對於哪個功能需要這麼長時間以及如何改進它的任何見解？

來源

2014-01-14 user1956609

有6種或多或少類似的方法與bsxfun，很難說哪一個是最快的。

%example data 
A = [0 1 1 1 0 0]; 
B = perms(A);  %720x6 matrix

計數相似之處：

Z = sum( bsxfun(@eq, A,B) , 2); 
Z = sum(~bsxfun(@ne, A,B) , 2); 
Z = sum(~bsxfun(@xor, A,B) , 2);

計數差異：

Z = sum(~bsxfun(@eq, A,B) , 2); 
Z = sum( bsxfun(@ne, A,B) , 2); 
Z = sum( bsxfun(@xor, A,B) , 2);

Z是含有A等於/不等元素的B每一行的數目的向量。

基準爲100次試驗每個（與上述順序相同）：

來源

2014-01-14 17:01:33 thewaywewalk

聽起來就像是bsxfun命令是你需要什麼

min(sum(bsxfun(@xor, A, B),2))

來源

2014-01-14 17:01:23

使用pdist2與'hamming'距離

[D I] = pdist2(A, B, 'hamming', 'Smallest', 1);

來源

2014-01-14 17:10:18 Shai

萬一它不快，至少要更容易理解。 – Jonas

嗯好的，這對我來說是一個新功能。感謝所有人的回答，這非常有幫助。 – user1956609

@Shai：你能解釋一下你的解決方案嗎？與其他人相比，哪個更好？（at）user1956609你選擇了最慢的，任何理由？我只是好奇:) – thewaywewalk

另一種可能性，它通過索引（不知道它的速度比取代xor以前的答案）：

A = logical(A); 
min(sum(B(:,~A),2) + sum(~B(:,A),2))

或者，要避免~上B：

A = logical(A); 
min(sum(B(:,~A),2) - sum(B(:,A),2)) + nnz(A)

來源

2014-01-14 17:40:16

基準所有溶液

（Thanks to Amro爲基準碼）

function [t] = bench() 
    A = [0 1 1 1 0 0]; 
    B = perms(A); 

    % functions to compare 
    fcns = { 
     @() compare1(A,B); 
     @() compare2(A,B); 
     @() compare3(A,B); 
     @() compare4(A,B); 
    }; 

    % timeit 
    t = zeros(4,1); 
    for ii = 1:100; 
     t = t + cellfun(@timeit, fcns); 
    end 
end 

function Z = compare1(A,B) %thewaywewalk 
    Z = sum( bsxfun(@eq, A,B) , 2); 
end 
function Z = compare2(A,B) %Matt J 
    Z = sum(bsxfun(@xor, A, B),2); 
end 
function Z = compare3(A,B) %Luis Mendo 
    A = logical(A); 
    Z = sum(B(:,~A),2) + sum(~B(:,A),2); 
end 
function Z = compare4(A,B) %Shai 
    Z = pdist2(A, B, 'hamming', 'Smallest', 1); 
end

結果爲100次試驗和720x6矩陣B：

0.0068s %thewaywewalk 
0.0092s %Matt J 
0.0077s %Luis Mendo 
0.0399s %Shai

結果爲100次試驗和40320x8矩陣B：

0.0889s %thewaywewalk 
0.1512s %Matt J 
0.4571s %Luis Mendo 
0.4578s %Shai

的bsxfun方法似乎使用匿名函數@eq是最快的，而對於這一點。

來源

2014-01-14 18:37:23 thewaywewalk

您不考慮我的解決方案給出最近鄰居的輸出：距離和索引。它等於另一個電話'[D I] = min（Z）;'在所有其他候選人之後。我認爲這不會從根本上改變計時結果，但可能會產生影響。此外，您可能需要考慮輸入類型的影響：設置「a – Shai

+1」進行基準測試 –

在一行和1和0的矩陣之間採用xor的更快方法？

回答

基準所有溶液

相關問題