我正在運行獨立的命令行blast來對許多查詢序列對核苷酸的大型數據庫序列進行比對。我可以修改blastn程序的命令行參數以更改各種參數,例如匹配/不匹配分數。評估BLASTn評分的重要性?
我在想 - 對於blastn輸出的「比特分數」,比較相同查詢和數據庫序列但不同匹配/不匹配參數的比對的比特分數是否有意義?我試圖評估爆炸如何以各種參數值表現出來,但我想確保所有事情都在正確的比較。謝謝。
我正在運行獨立的命令行blast來對許多查詢序列對核苷酸的大型數據庫序列進行比對。我可以修改blastn程序的命令行參數以更改各種參數,例如匹配/不匹配分數。評估BLASTn評分的重要性?
我在想 - 對於blastn輸出的「比特分數」,比較相同查詢和數據庫序列但不同匹配/不匹配參數的比對的比特分數是否有意義?我試圖評估爆炸如何以各種參數值表現出來,但我想確保所有事情都在正確的比較。謝謝。
我不清楚爲什麼你認爲比較比分可以讓你瞭解BLAST的表現有多好。通常的做法是,在大量的BLAST和其他對齊程序上進行的工作是基於查看本地的,未對齊的對齊,並將這些理論擴展到空隙對齊。特別地,比特得分計算如下:
S' = (lambda * S - ln(K))/ln(2)
在上式中,K和λ是您的替換矩陣的常數,S是得分(取代和間隙分數的總和),並且S」是比特得分。這意味着您的比特分數肯定會因爲改變缺口開放/缺口擴展參數而改變,這意味着您的比較無效。這是一個不幸的結果,即關於缺口排列的理論很少,所以給定系統的最優缺口分數必須憑經驗來衡量。
由於比特得分不具有可比性,我建議您根據不涉及比對得分的備用數據集進行評估。例如,如果我對用於比較蛋白質序列的最佳空位開放/空位延伸參數感興趣,我可以查看已知結構的蛋白質,並根據其能力進行比對來評估每個參數集,從而使結構有意義。這樣可以避免完全比較比對分數,這是很好的,因爲比較比分本身並不明顯。
我不確定你能做到這一點。 你真的需要改變匹配/不匹配參數嗎?你的目標是什麼?
比特得分不一定是可比的。從NCBI網站上的BLAST文檔:
「比特得分被歸一化,這意味着即使使用了不同的得分矩陣,也可以比較來自不同比對的比特得分。」
http://www.ncbi.nlm.nih.gov/bookshelf/br.fcgi?book=handbook&part=ch16
你是如何測量性能的?你說你想測量BLAST的表現如何,但目前還不清楚你的目標是什麼。 –