2013-10-24 90 views
0

我有一組以fasta格式對齊的序列。我想從協調一致中獲得共識。在大多數網站的情況下,其中一個基地顯示最高發生率。在兩個或兩個以上鹼基出現次數相同的情況下,應考慮哪個鹼基。一個例子如下:獲取共有序列的邏輯

>Seq_1 
ATGCGA 
>Seq_2 
AT-CGT 
>Seq_3 
AT-CCG 
>Seq_4 
AT-CCC 
>Seq_5 
AA-CT- 

按照慣例,這將是共識

Site  : 1 2 3 4 5  6 
Consensus : A T G C [G/C] N 

但這輸出共有序列當與其它序列比對將拋出異常。那麼在這種情況下應該做些什麼以及如何爲這些網站達成共識呢?

回答

0

你也可以在Biostars上問這個問題。

但是,這些是我的建議。

1)存在幾個包來計算共有序列。這可能值得使用已知的軟件包。
2)如果你想創建你自己的算法,看看IUPAC核苷酸代碼(例如here)。根據慣例,一個G/C將由「S」表示

+0

我已經創建了此代碼,但問題是應用程序不會接受這種序列與ATGC以外的字母,也有多個在一個地點的一個序列中的鹼基在對齊期間顯然會造成問題。 – SRKR

+0

你使用什麼應用程序?你真的得到一個錯誤? – Stylize

+0

我得到的一個錯誤是無效字符錯誤,即使這樣我可以忽略這樣的錯誤。如果我忽略這樣的錯誤,它會在其他序列中產生差距。此外,它只是忽略字母S,Y和N.我使用MEGA 4.0進行分析。即使應用程序沒有拋出錯誤,它仍然是一個數據的小故障,最終會以某種方式影響對齊。 – SRKR

0

大多數共識的呼叫者將質量考慮在內,不僅發現最常見的基數,而且還以最高的置信度發現基數。

例如,在古老的Sanger日子裏,一個算法是丘吉爾 - 沃特曼共識呼叫算法。也有修改後的版本,以滿足您的需求(例如,版本,沒有呼籲含糊之處)

+0

是真實的,但在這種情況下,沒有質量信息(或者是否存在?)。我不確定OP爲何首先計算出共識...... – Stylize