我有一組以fasta格式對齊的序列。我想從協調一致中獲得共識。在大多數網站的情況下,其中一個基地顯示最高發生率。在兩個或兩個以上鹼基出現次數相同的情況下,應考慮哪個鹼基。一個例子如下:獲取共有序列的邏輯
>Seq_1
ATGCGA
>Seq_2
AT-CGT
>Seq_3
AT-CCG
>Seq_4
AT-CCC
>Seq_5
AA-CT-
按照慣例,這將是共識
Site : 1 2 3 4 5 6
Consensus : A T G C [G/C] N
但這輸出共有序列當與其它序列比對將拋出異常。那麼在這種情況下應該做些什麼以及如何爲這些網站達成共識呢?
我已經創建了此代碼,但問題是應用程序不會接受這種序列與ATGC以外的字母,也有多個在一個地點的一個序列中的鹼基在對齊期間顯然會造成問題。 – SRKR
你使用什麼應用程序?你真的得到一個錯誤? – Stylize
我得到的一個錯誤是無效字符錯誤,即使這樣我可以忽略這樣的錯誤。如果我忽略這樣的錯誤,它會在其他序列中產生差距。此外,它只是忽略字母S,Y和N.我使用MEGA 4.0進行分析。即使應用程序沒有拋出錯誤,它仍然是一個數據的小故障,最終會以某種方式影響對齊。 – SRKR