生物化學家/生物信息學使用此網站(http://dgpred.cbr.su.se/index.php?p=TMpred)。進入蛋白質序列後,你會得到這樣的事情:從其他號碼的網站中提取數字列
http://dgpred.cbr.su.se/analyze.php?with_length=on&seq=RGFTPLQWECVMASDFGHH
一些數據在頂部和底部,並在中間的4列,其中第四是我們想要的數據。我想從第四列(對於很多蛋白質序列)中取出這些數字並放入Excel中。
我目前的工作流程(Mac OS X)是將所有內容複製到RTF格式的文本編輯器中,然後拖動數字(以便只選擇第四列的數字),然後執行我的AppleScript :
do shell script "pbpaste | sed 's/[^0-9.-]//g' | pbcopy"
do shell script "pbpaste | sed '/^$/d' | pbcopy"
我在正則表達式僅僅初學者,但這種成功給我留下了由換行符分隔的數字,準備一個漂亮的名單被粘貼到Excel中。
什麼是真正的甜蜜是溝文本編輯步驟,只是讓正則表達式直接從網站採取數字。但是,這超出了我的水平。任何人都可以幫助我嗎?即,只能從第4列
所以你想提取'Delta G aa(i)應用程序列,對不對? – 2013-01-12 21:28:04
這是正確的 – Johan