我想通過使用NCBIWWW進行biopython運行blastn。
我在給定的示例文件上使用qblast函數。
我有一些定義的方法,當我的fasta包含足夠長的序列時,一切都像魅力一樣工作。唯一一次失敗的情況是當我需要將來自Illumina測序的讀段過短時。所以我想說這可能是由於在提交作品時沒有自動重新定義爆破參數。Biopython短核苷酸序列的blast參數
我嘗試了所有我可以接近blastn-short條件(請參閱here的表C2),但沒有取得任何成功。
它看起來像我不能喂正確的參數。
越接近我想我來的工作情況與以下內容:
result_handle = NCBIWWW.qblast("blastn", "nr",
fastaSequence,
word_size=7,
gapcosts='5 2',
nucl_reward=1,
nucl_penalty='-3',
expect=1000)
感謝您的任何提示/建議,使其工作。
我的樣本FASTA讀的是以下之一:
>TEST 1-211670
AGACTGCGATCCGAACTGAGAAC
,我得到的是下面的一個錯誤:
>ValueError: Error message from NCBI: Message ID#24 Error: Failed to read the Blast query: Protein FASTA provided for nucleotide sequence
當我看this page,看來我的問題是關於修復門檻,但顯然我沒有設法使其工作到目前爲止。
謝謝你的幫助。
感謝您的幫助。據我所知,矩陣類型只適用於蛋白質對齊;對於'word_size'我應該有正確的(來自文檔),'composition_based_statistics'和'filter'我不知道。我嘗試了兩種,但似乎沒有幫助.. – eetuko