1
我試圖找到具有三肽的序列。除了'P'之外,三肽可以具有任何其他氨基酸。我用下面的方法提取它們。定位爲與Biopython蛋白質序列模式
from Bio import SeqIO
RGD = []
for record in SeqIO.parse("input.fasta", "fasta"):
rgd_count = record.seq.count('RGD')
if rgd_count >= 1:
RGD.append(record)
SeqIO.write(RGD, "RGD_Proteins.fasta", "fasta")
我該如何在此引入正則表達式,使得RGD(N)很好,除了RGDP?
在此先感謝。
AP
您使用的方法是否支持正則表達式?如果是的話,你需要像'RGD(?!P)'(匹配'RGD'不跟着'P')。也許,你可以像'rgd_count = len(re.findall(r「RGD(?!P)」,str(record.seq)))'那樣做。不要忘記'導入re'。不知道你需要使用'str()',也許它會使用'record.seq'作爲're.findall'的第二個參數。 –
我想,它可以支持正則表達式。因爲,文檔說,Bio.seq對象就像字符串。我會嘗試並更新!謝謝 – Arun
請讓我知道它是否適用於您,以便我可以添加答案。 –