2012-09-15 27 views
0

組我有兩個組字母「AGTE」的字符串,我想找到比較這些,看看他們是否在統計上類似的辦法。第一組A是現實世界觀察,B是預測。每組有400左右例如:比較和可視化序列

**A** 
GTAATEGTTTEAAA 
TTEAGE 
... 

**B** 
AGTEAAAAGT 
TAT 
GGATEAATGGGTEAATG 
.... 

我也想在某種程度上將它們想像成爲演示目的。你有什麼想法,我怎麼能做到這一點?

+0

你試過'比較'嗎? – bdares

+0

'差異'?你能否詳細說明一下? – HCAI

+0

我看到你正在使用mathematica,但差異工具(http://en.wikipedia.org/wiki/Diff)似乎很合適。 – bdares

回答

1

我建議你計算字符串之間的Levenshtein distance,然後你可以繪製這些字符串間的距離。較大的值表示更不相似的字符串。

如果您不想自己實施Levenshtein距離計算,請在文件交換中查看thesesubmissions

+0

謝謝你的建議。我的序列隨機排列在文件中,因此在各行之外不存在任何結構。所以也許http://www.mathworks.com/matlabcentral/fileexchange/36981類似的Levenstein .m文件可能會有用。基本上我觀察了一堆序列並記錄下來。然後通過模型再現這些,並想比較序列組,以查看它們是否相似。我還在'R'中發現了'coda',看起來像是一種可能性。你怎麼看? – HCAI