我使用FASTA文件請求與--tblout選項,這是故意空間分隔(而不是製表符分隔)和對齊到對齊的列表格輸出格式運行分析hmmscan的特定列。切割從空間分隔的文件
文件看起來是這樣的(這只是一個格式示例)
targetname accession queryname accession e-value score bias
x_x_x PFyyyy.y ContigXXX_0 - x.xe-xx yy.y x.x
x PFyyyy.yy COntigXXX_1 - xe-x yy.y x.x
x_x PFyyyy.y COntigXXX_2 - xe-xx y.y x.x
x_x_x PFyyyy.yy COntigXXX_3 - x.xe-x yy.y x.x
.
..
其中目標名稱是例如:Methyltransf或Dimer_tnp_hAT或Nucleotide_trans
,其中加入的例如:PF13847.1或PF03407.11或PF01958.13;
其中查詢名稱是例如:Contig244_1或Contig44245_3或Contig12345_6
其中第二柱加入是: -
其中e.value是例如:4.0E-10 3.5E或-15,等等。
和得分和偏見都是這種格式的數字:XX.X
我想要做的是削減queryname列,所有的ContigXXX_X有顯著命中蛋白結構域是。
之後,我可以對它們進行排序,只保留每個Contig的第一次出現,我可以將該文件與BlastP和BlastX的結果進行比較(我已經能夠獲得我的Contig列表,有命中NR數據庫)
所以我的問題是:我怎麼能砍在我的所有重疊羣列? 我一直試着用grep,sed,cut命令,但是我還沒找到正確的。
我是新來的Unix語言,我還在學習所以每一個建議,將真正體會。
如果我的問題不清楚就告訴我,我可以修改它!
謝謝!awk命令正常工作。我想出瞭如何獲得Contigs專欄,但是這樣更快!謝謝 – user1819854