這是生物信息學相關的問題,但仍然是一個非常多的編程問題。對於下面給出的問題,我沒有在bash中建立一些內容,並想到在這裏提問。請幫助。比較兩個製表符分隔的文件
問題:我有兩個文件(製表符分隔)。文件A看起來像
chr1 17050255 234916798
chr1 36688211 36840408
chr1 153961765 154156955
chr1 154128722 154194653
chr1 154130378 154156872
chr1 207493679 207819735
這是一個基因組座標列表。
文件B在其前3列中也包含基因組座標,第四列中包含它的名稱。
chr1 1709155 1709324 MMM3
chr1 1709155 1709324 Sk-20
chr1 1709608 1709727 ZdaA
chr1 1709608 1709727 ZdaA
chr1 1709608 1709727 ZA
chr1 1709629 1709727 E-1
chr1 1709629 1709727 E-1
chr1 1709629 1709727 E-1
我想要什麼與文件中的重疊,打印像文件中的這個
ChrA StrtA stpA ChrB SrtB StpB Name
地區(連同第四列)有文件B的區域是第一位的,然後該地區擁有它在文件B與第四列的文件B.值一起重疊
謝謝
你如何定義「ov erlap「?鑑於上述數據,您的預期產出是什麼? – Steve
這種類型的問題通常需要示例輸入產生的預期輸出的實際示例。 「結果」的字符串不會出現在輸入中,因此輸出不會以清晰的方式顯示您想要的內容。 – kbulgrien
如果您使用Python路徑,使用[csv](http://docs.python.org/library/csv.html)模塊解析輸入文件可能會讓您的生活更輕鬆。 –