2011-03-11 128 views
2

我使用了很多直方圖。特別是,這些直方圖是沿着人類基因組上的片段的鹼基調控。變異分析算法

沿x軸的每個點是組成DNA的四個含氮鹼基(A,C,T,G)之一,y軸表示鹼基可以被稱爲的次數(或由測序儀識別,以對基因組進行測序,基因組只是簡單地確定了基因組中每個鹼基的身份)。

許多這些直方圖顯示大致線性下降(當機器無法獲得足夠的讀取深度時),它們會從平臺區域降至0或(幾乎爲0)。當分數下降到零時,這意味着音序器不能確定基地的身份。如果你以前看過雙螺旋線,這意味着音序器無法找出螺旋線一半的標識。基因組的某些區域比其他區域更難表徵。具有大量基本調用(大於等於100)的基數(或x個數據點)能夠被明確識別。例如,如果一個基數總共有250個調用,並且我們有248個T被調用,1個G被調用,1個被調用,我們稱之爲T.具有0個基調的區域值得關注,因爲那時我們已經必須從鄰近地區推斷低讀取區域的身份可能是什麼。有沒有一種簡單的算法來分配這些圖表反映這種趨勢的分數?有關histo的示例,請參見box.net/shared/nbygq2x03u。

回答

1

您可以使用讀取深度爲0時的基數的計數......該線的斜率也可以是一個有用的指標(陡峭負斜率=從高原下降)。