我有一組說明,100個基因組特徵,爲此我創建了一個fasta文件,每個文件周圍都有一個500 bp的窗口。我已經在這些窗口中搜索了一個DNA序列,並且在該特徵集中每個單個500 bp窗口平均發現了1.5個序列。偶然的,我預計序列每1024bp出現一次,或平均每500bp窗口我的序列〜0.49。計算所發現的DNA結合基序的顯着性與預期的MATLAB
我的問題是如何確定我發現的每個單個功能的1.5綁定網站是否顯着,並獲得p值?作爲後續,如果我使用同一組100個窗口並以相同的概率搜索不同的序列(1/1024),並確定現在平均每個窗口有0.9個序列,那麼如何我可以確定這是否顯着不同於我在上面搜索的序列的1.5?如果我在不同的特徵類型(比如說n = 50)的不同500bp窗口集合中搜索上述相同的兩個序列(均可在平均1/1024個鹼基對上找到),作爲第二個後續步驟, ,如何確定此搜索的結果是否與上述結果顯着不同(特別是如果特徵集1和特徵集2中的序列A和序列B之間的差異顯着)?
預先感謝您。
正如現在寫的那樣,您的問題需要編程和生物學方面的專家。如果您更改問題以刪除第二個要求 –
感謝您對Luis Mendo的反饋,您更有可能獲得幫助。如果我沒有在合理的時間內得到答案,或者在那個時間以前我無法自己弄清楚,我肯定會跟進你的建議。 – metaditch
注意:上述期望的序列每1024bp出現一次是基於不正確的假設,即基因組DNA中的GC含量爲50%。 – metaditch