我有〜200個文本文件,每個文件大小約10Kb,並且全部命名爲fastqc_data.txt
,每個文件位於不同的子目錄中。這些文件是由第三方生成的。每個文件的頂部如下所示。我的目標是生成一個新文件,其第一列將包含「文件名」值(在本例中爲「1265-H19_AGGCAG_L007_R1_001.fastq」,第二列將包含「總序列」值(「41284554」),和第三列將包含 「序列長度」( 「100」)的值bash:將值提取到表
實施例的輸入文件1:
FastQC 0.10.1
Basic Statistics pass
Measure Value
Filename 1265-H19_AGGCAG_L007_R1_001.fastq
File type Conventional base calls
Encoding Sanger/Illumina 1.9
Total Sequences 41284554
Filtered Sequences 0
Sequence length 100
%GC 41
END_MODULE
實施例的輸出文件:
Filename Total.Sequences Sequence.length
1265-H19_AGGCAG_L007_R1_001.fastq 41284554 100
1265-H20_TTTCAG_L007_R1_001.fastq 51387564 103
1265-H21_CGGTTG_L007_R1_001.fastq 33254771 96
這是一個文件的全部內容嗎?我想不是,如果你說他們每個10kb。 –
這不是整個文件的內容。更多的它看起來像: 序列標記爲質量差的0 序列長度100 %GC 40 >> END_MODULE >>每鹼基序列質量合格 #Base平均中值下四分位數上四分第10百分位90百分位 1 32.22927768362192 33.0 31.0 34.0 31.0 34.0 2 32.471828039631184 34.0 31.0 34.0 31.0 – Sarah
這在評論中幾乎是難以理解的......要知道的重要一點是,你顯示的行是否足夠獨特。例如,文件中是否有與您嘗試匹配的行相同的其他行?順便問一句,你是否在我的答案中嘗試了代碼? –