你好我是python的新手,我希望你能幫助我。我有一個文本文件(稱爲data.txt)與基因編號和相應的rs號和一些距離測量數據。數據看起來像這樣:從python中的文本文件中提取一個字符串2.7.5
rs1982171 55349 40802
rs6088650 55902 38550
rs1655902 3105 12220
rs1013677 55902 0
其中第一列是RS號,第二列是基因數,第三列是一些距離度量。數據要大得多,但希望上面的內容能讓您瞭解數據集。我想要做的是找到與某個基因相對應的所有rs數字。例如,對於上面的數據集,基因55902 = {rs6088650,rs1013677}。理想情況下,我想讓我的代碼找到與給定基因相對應的所有rs數字。因爲我不能現在做,我不是寫了一個短代碼,讓包含在data.txt文件字符串「55902」的臺詞:
import re
data=open("data.txt","r")
for line in data:
line=line.rstrip()
if re.search("55902",line):
print line
這段代碼的問題是,輸出這樣的事情:
rs6088650 55902 38550
rs1655902 3105 12220
rs1013677 55902 0
我想我的代碼忽略rs號中的字符串「55902」。換句話說,我不知道我的代碼輸出在上面的輸出的第二行,因爲基因數目不55902.我想我的輸出是:
rs6088650 55902 38550
rs1013677 55902 0
如何修改上面的代碼達到我想要的。任何幫助,將不勝感激。提前致謝。
根據你想要多少個不同的基因,以收集RS號碼,你'將所有數據放入['pandas'](http://pandas.org)'DataFrame'並在那裏分析它可能會好得多。 – MattDMo
感謝您的建議! –