查找DNA字符串集合中的所有（k，d） - 基元

基本上，問題是要求找出DNA字符串集合中不超過d個不匹配的所有可能的基序（k-mers long）。我可以編寫下面的代碼來查找一個字符串DNA的所有基序（k，d）。當它出現多行字符串DNA時，我不知道如何修改我的代碼。查找DNA字符串集合中的所有（k，d） - 基元

樣品輸入：

K = 3，d = 1

ATTTGGC

TGCCTTA

CGGTATC

GAAAATT

樣本輸出：

ATA

ATT

GTT

TTT

import collections 

    kmer = 5; 
    in_genome = "GGGGCTTCACAGCGCCCCTACAATACAATAGCCCTCGAATACCTACTTGCCACTATGTTCGGCGTCATTACATACGACCCGCATGCTCGGCAGTATGTCTCTACTCAGGATCCCTCAATATTACTTACGCCAATATGTCTAAGGTTTAGA"; 
    in_mistake = 1; 
    out_result = []; 
    mismatch_list = [] 

    def hamming_distance(s1, s2): 
     # Return the Hamming distance between equal-length sequences 
     if len(s1) != len(s2): 
      raise ValueError("Undefined for sequences of unequal length") 
     else: 
      return sum(ch1 != ch2 for ch1, ch2 in zip(s1, s2)) 

    for i in xrange(len(in_genome)-kmer + 1): 
     v = in_genome[i:i + kmer] 
     out_result.append(v) 

    for t_kmer in set(out_result): 
     for s_kmer in out_result: 
      if hamming_distance(t_kmer, s_kmer) <= in_mistake: 
       mismatch_list.append(t_kmer) 

    mismatch_count = collections.Counter(mismatch_list) 

    print mismatch_count

來源

2016-02-06 user5893556

什麼問題PLZ？ – Aprillion

能否詳細說明'd'的含義？定義一個不匹配 – Pynchia

你可以將所有這些行連接到字符串in_genome –

問題似乎是將代碼從使用內部變量切換到從文件讀取輸入。您不能只將文件的DNA鏈連接在一起並像以前一樣運行，因爲這會改變鏈的末端相遇處的結果。你還必須處理輸入的第一行不同於其他，因爲它包含程序參數，其餘的是原始數據：

import re 
import sys 
import collections 

mismatch_list = [] 

def hamming_distance(s1, s2): 
    """ Returns the Hamming distance between equal-length sequences """ 
    if len(s1) != len(s2): 
     raise ValueError("Undefined for sequences of unequal length") 
    return sum(ch1 != ch2 for ch1, ch2 in zip(s1, s2)) 

with open(sys.argv[1]) as file: 

    kmer = None 
    in_mistake = None 

    parameters = file.readline().rstrip() # first line of file has parameters 

    matchobj = re.search(r"k\s*=\s*(\d+)", parameters) 
    if matchobj: 
     kmer = int(matchobj.group(1)) 

    matchobj = re.search(r"d\s*=\s*(\d+)", parameters) 
    if matchobj: 
     in_mistake = int(matchobj.group(1)) 

    assert kmer is not None and in_mistake is not None, "file parameters misread" 

    for sequence in file: # subsequent lines of file are DNA strands 
     sequence = sequence.rstrip() 
     if not sequence: 
      continue # ignore blank lines 

     result = [] 

     for i in range(len(sequence) - kmer + 1): 
      v = sequence[i:i + kmer] 
      result.append(v) 

     for t_kmer in set(result): 
      for s_kmer in result: 
       if hamming_distance(t_kmer, s_kmer) <= in_mistake: 
        mismatch_list.append(t_kmer) 

mismatch_count = collections.Counter(mismatch_list) 

print(mismatch_count)

來源

2016-02-16 20:20:56 cdlane

查找DNA字符串集合中的所有（k，d） - 基元

回答

相關問題