2017-05-15 15 views
1

我是一名生物學學生,在我們的實驗室,我們正在用鼠標測試某種藥物。在正常狀態下,我們有很多套的基因表達數據的生物學重複: gene replicate 1 replicate2 gene1 -0.842138 -0.701153 gene2 -0.796896 -0.725085 gene3 -0.835920 -0.707572 gene5 -0.702721 -0.724579 gene6 -0.815476 -0.737112 .... gene 20000 each dot represent a gene生物方差或真正受影響的基因。

,並與藥餵它們後,我們有一個新的基因表達數據: after medicine treatment

我的問題是,如何我可以將那些真正受影響的基因與那些僅僅是生物差異(重複之間的差異)的基因分開?

我是機器學習的新手,我相信監督學習應該是我的選擇,對嗎?培訓數據是我的重複數據,然後我可以測試藥物治療後的每個基因是否可以落入由重複確定的「耐受區」。但我不確定應該使用哪種方法。任何指導提前讚賞。

+0

哦,男孩。我需要一分鐘.. – ZombieChowder

回答

0

首先歡迎來到Stack Overflow!其次我真的認爲這個問題應該移到這裏:DataScienceArtificial Intelligence。儘管如此,我會盡力幫你解答。

我有幾個問題,當你回答,你應該對真正解決這個問題的正確方法:

  1. 你是如何將數據分割到訓練數據(什麼整體數據的百分比你用於培訓目的)?
  2. 您是否確定了最初引入化學品的基因的邊界?
  3. 你最初期待什麼變化?
  4. 測試完成後,方差的界限是否發生了顯着變化?
  5. 您想用哪種算法來解決這個問題?
  6. 您是否打算使用EDA以獲得更好的見解?
  7. 您是否想過使用K-means以觀察引入「新葯」後數據集羣如何變化?

我會親自計算這些基因的平均值和標準偏差,並且在藥物引入後也會這樣做。這應該有助於您瞭解邊界如何更改以及最有可能發生傳播的位置。另外,如果你有選擇的話,總是使用EDA(我知道我對此非常鼓吹,但它有很大的幫助)。我認爲這應該可以幫助你更好地瞭解你的問題。我希望我能幫上忙。

算法的有用鏈接:Machine Learning Algorithms

+0

我會建議這樣做。最好的辦法是熟悉算法,並仔細查看遺傳算法。我希望我的回答能幫助你。 – ZombieChowder

+0

我的問題可能太天真了...我應該學習更多的統計知識,然後問... 1。所有重複數據都是我的訓練數據。我認爲重複中的每個基因表達數據都定義了邊界。就像在我的第一個散點圖中,虛線區域定義了「耐受區」,然後在藥物治療後,我想找出哪些基因有顯着變化(掉出公差帶)7。這確實是類似於k-means聚類的東西,期望我不知道如何定義cluster1(重複之間的變化)和cluster2(藥物治療後顯着受影響的基因) – AlicePsyche

+0

@AlicePsyche你知道該讀什麼以及從哪裏開始。我建議您不要將整個數據用作培訓數據,但要將其分成30%至70%或40%至60%之類的數據。查看** K-means **並熟悉如何決定需要多少個羣集。在線上還有很多關於機器學習的代碼示例,特別是在Python中。 – ZombieChowder