我想計算長列表序列之間的成對差異數,並將其放回矩陣形式。計算大量序列的成對差異矩陣?
我有幾百個基因序列,每個序列已經對齊,長度相同(約300個字符)。我不在尋找編輯距離算法之一(hamming's,leveinstein等),而是想要獲得兩個序列之間絕對差異的數量。序列必須在每個字符位置進行比較。
例如,
Sequence 1: "GAT-ACA"
Sequence 2: "AT-GCGA"
Number of differences: 6
(破折號那裏,以允許對準的序列,以及我的序列也可以包括短劃線)。
會有任何有效的方式來做到這一點使用python(或其他語言),計算時間短嗎?我在R中也問過這個問題,最初打算這樣做,但是結果太慢而不適用於數百個序列。
謝謝!
有多大的限制,這可以做多快 - 比較將需要〜O((L)(n^2))其中L是序列長度,雖然有一些更快的方法;請參閱[本開放獲取論文](http://www.biomedcentral.com/1471-2105/8/89) – Argalatyr 2012-07-08 20:26:01