1
有一個ecoli.ffn
文件與表示測序的基因的名稱的行:如上所示提取每個測序數據作爲單個文件
$head ecoli.ffn
>ecoli16:g027092:GCF_000460315:gi|545267691|ref|NZ_KE701669.1|:551259-572036
ATGAGCCTGATTATTGATGTTATTTCGCGT
AAAACATCCGTCAAACAAACGCTGATTAAT
>ecoli16:g000011:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042
GTGTACGCTATGGCGGGTAATTTTGCCGAT
>ecoli16:g000012:55989:gi|218693476|ref|NC_011748.1|:1128430-1131042
GTGTACGCTATGGCGGGTAATTTTGCCGAT
CTGACAGCTGTTCTTACACTGGATTCAACC
CTGACAGCTGTTCTTACACTGGATTCAACC
,基因名稱是第一和第二結腸之間:
g027092
g000011
g000012
我想用ecoli.ffn
生成三個文件:g027092.txt
,g000011.txt
,g000012.txt
,包含每個測序數據。
例如,g027092.txt
將包含原始數據,但不頭:
$cat g027092.txt
ATGAGCCTGATTATTGATGTTATTTCGCGT
AAAACATCCGTCAAACAAACGCTGATTAAT
如何製作的?
嗨@karakfa,你能解釋一下嗎? –
完成。 awk是如此強大以及正則表達式。 – Ming
乾杯@karafka !!! –