組我有兩個組字母「AGTE」的字符串和乙,我想找到比較這些,看看他們是否在統計上類似的辦法。第一組A是現實世界觀察,B是預測。每組有400左右例如:比較和可視化序列
**A**
GTAATEGTTTEAAA
TTEAGE
...
**B**
AGTEAAAAGT
TAT
GGATEAATGGGTEAATG
....
我也想在某種程度上將它們想像成爲演示目的。你有什麼想法,我怎麼能做到這一點?
組我有兩個組字母「AGTE」的字符串和乙,我想找到比較這些,看看他們是否在統計上類似的辦法。第一組A是現實世界觀察,B是預測。每組有400左右例如:比較和可視化序列
**A**
GTAATEGTTTEAAA
TTEAGE
...
**B**
AGTEAAAAGT
TAT
GGATEAATGGGTEAATG
....
我也想在某種程度上將它們想像成爲演示目的。你有什麼想法,我怎麼能做到這一點?
我建議你計算字符串之間的Levenshtein distance,然後你可以繪製這些字符串間的距離。較大的值表示更不相似的字符串。
如果您不想自己實施Levenshtein距離計算,請在文件交換中查看thesesubmissions。
謝謝你的建議。我的序列隨機排列在文件中,因此在各行之外不存在任何結構。所以也許http://www.mathworks.com/matlabcentral/fileexchange/36981類似的Levenstein .m文件可能會有用。基本上我觀察了一堆序列並記錄下來。然後通過模型再現這些,並想比較序列組,以查看它們是否相似。我還在'R'中發現了'coda',看起來像是一種可能性。你怎麼看? – HCAI
你試過'比較'嗎? – bdares
'差異'?你能否詳細說明一下? – HCAI
我看到你正在使用mathematica,但差異工具(http://en.wikipedia.org/wiki/Diff)似乎很合適。 – bdares