我試圖使用單獨的「標識符文件」(2列1050行)從大製表符分隔的文本文件(18行20600行,'目標文件')中提取行行)。標識符文件包含第二列中需要與目標文件中的標識符匹配的標識符(目標文件中的列1)。目標是找到目標文件中的所有1050個匹配項,併爲每個匹配的1050行提取所有18個(標識符+ 17值)值(即,創建一個18x1050文件,其中公共標識符中的第一列)。我試圖在沒有太多好運的情況下在python中完成此操作。這是我試過的:通過python中的文本文件中的第一個值查找行
gene_values=[]
with identifier as genelist:
for line in genelist:
parts_genelist=text.split()
with target as expression:
for line in expression:
parts_expression=text.split()
if parts_genelist[1]==parts_expression[0]:
gene_values=gene_values.append[genelist.readlines(), expression.readlines()]
我將不勝感激一些輸入和一些幫助做得更好。
請發佈「目標文件」和「標識符文件」的片段/樣本 – Potrebic
出了什麼問題?你有一些小的示例輸入文件來演示預期的和實際的輸出嗎?另外,代碼中的「text」是什麼:這個變量來自哪裏(和'identifier'一樣)。 – Evert