2013-12-19 75 views
0

如何找到兩個基因的相似性,給定基因名稱?通過相似性,我想我的意思是序列的相似性。我是這個領域的新手,由我的教授完成這項工作。我不知道許多類似的相似性給定基因名稱的基因的相似性,在BioPython

希望這可以通過Biopython來完成嗎?

非常感謝。

更新爲響應:
謝謝。但我試過了。
我的主要問題是當我從數據庫中檢索基因序列時,一些結果是作爲一個基因序列出現的,另一些則是作爲一系列蛋白質出現的。我想如果我們想比較它們,我需要確保它們都是基因序列,或者它們都是蛋白質序列的權利?

這裏是我使用的代碼:

handle = Entrez.efetch(db="nucleotide", id=t ,rettype="gb") 
record = handle.read() 

然後,對於一些IDS,我得到了agtc序列,別人我有一個序列,例如mwvllvffll tltylfwpkt。他們是蛋白質嗎?

我被困在這裏,我不知道接下來要做什麼。

回答

1

您應該先閱讀Biopython Tutorial,其中涵蓋了所有基本知識。您的問題非常簡單(假設您已經知道如何使用Python進行編程):讀取基因名稱或登錄ID,檢索序列,比對序列,然後生成摘要信息(百分比同一性,百分比同源性,缺口得分等)。 )。所有這些功能都包含在教程和cookbook中。在使用單獨的類和方法時,Biopython API documentation也非常有用。

祝你好運!

+0

謝謝。 @MattDMo,我改變了一點問題,可否請你看看? –

+0

你是對的,有些是蛋白質,有些是核酸。沒有看到你的整個代碼,我不知道你爲什麼混合使用序列,但它可能與你使用的accession ID有關。我的建議是在Entrez網站上瀏覽一遍,然後嘗試手動搜索您的輸入內容,並查看您獲得的結果類型。例如,以「NP_」開頭的ID將是蛋白質序列,而「NM_」是DNA。您也可以在代碼中進行一些理智檢查,以便如果返回的序列含有氨基酸,並且您只想比較DNA,則會發生錯誤。 – MattDMo

0

如果您真的瞭解了這一點,您應該瞭解電子價值分數的含義等。高分數和低e值對應更好的相似性。

您必須比較相同的類型,但如果您想比較核苷酸與蛋白質,無論如何首先將dna翻譯成蛋白質。

查看NCBI,ENSEMBL,EBI網站。它們爲您提供幾乎所有您需要的工具。

如果你有很多要比較的序列,使用biopython會很明智,但首先應該像MattDMo所說的那樣瞭解這本烹飪書。在互聯網上查看其他程序員是如何嘗試理解他們的代碼的。

祝你好運