我有一個文本文件,其中每個ID行以>
開頭,下一行是一系列字符。並且在字符序列之後的下一行將是以>
開始的其他ID行。但在其中的一些,而不是序列我有「Sequence unavailable」
。 ID行之後的序列可以是一行或多行。 像這樣的例子:在Python中過濾奇怪的文本文件
>ENSG00000173153|ENST00000000442|64073050;64074640|64073208;64074651
AAGCAGCCGGCGGCGCCGCCGAGTGAGGGGACGCGGCGCGGTGGGGCGGCGCGGCCCGAGGAGGCGGCGGAGGAGGGGCCGCCCGCGGCCCCCGGCTCACTCCGGCACTCCGGGCCGCTC
>ENSG00000004139|ENST00000003834
Sequence unavailable
我想篩選出與「Sequence unavailable」
這些ID。輸出應該是這樣的:
輸出:
>ENSG00000173153|ENST00000000442|64073050;64074640|64073208;64074651
AAGCAGCCGGCGGCGCCGCCGAGTGAGGGGACGCGGCGCGGTGGGGCGGCGCGGCCCGAGGAGGCGGCGGAGGAGGGGCCGCCCGCGGCCCCCGGCTCACTCCGGCACTCCGGGCCGCTC
你知道該怎麼做的蟒蛇?
使用're.sub()'的正則表達式,例如['^>。+ [\ r \ n]^Sequence unavailable $'](https://regex101.com/r/vkYFd0/1)和'multiline'修飾符。 – Jan
顯然,如果是FASTA格式,這些「Sequence unavailable」行是從哪裏來的呢?也許你應該從源頭上解決這個問題。也可以考慮使用'BioPython' –
@Chris_Rands他們可能來自Ensembl Biomart。 –