生物方差或真正受影響的基因。

我是一名生物學學生，在我們的實驗室，我們正在用鼠標測試某種藥物。在正常狀態下，我們有很多套的基因表達數據的生物學重複： gene replicate 1 replicate2 gene1 -0.842138 -0.701153 gene2 -0.796896 -0.725085 gene3 -0.835920 -0.707572 gene5 -0.702721 -0.724579 gene6 -0.815476 -0.737112 .... gene 20000 each dot represent a gene 生物方差或真正受影響的基因。

，並與藥餵它們後，我們有一個新的基因表達數據： after medicine treatment

我的問題是，如何我可以將那些真正受影響的基因與那些僅僅是生物差異（重複之間的差異）的基因分開？

我是機器學習的新手，我相信監督學習應該是我的選擇，對嗎？培訓數據是我的重複數據，然後我可以測試藥物治療後的每個基因是否可以落入由重複確定的「耐受區」。但我不確定應該使用哪種方法。任何指導提前讚賞。

來源

2017-05-15 AlicePsyche

哦，男孩。我需要一分鐘.. – ZombieChowder

首先歡迎來到Stack Overflow！其次我真的認爲這個問題應該移到這裏：DataScience或Artificial Intelligence。儘管如此，我會盡力幫你解答。

我有幾個問題，當你回答，你應該對真正解決這個問題的正確方法：

你是如何將數據分割到訓練數據（什麼整體數據的百分比你用於培訓目的）？
您是否確定了最初引入化學品的基因的邊界？
你最初期待什麼變化？
測試完成後，方差的界限是否發生了顯着變化？
您想用哪種算法來解決這個問題？
您是否打算使用EDA以獲得更好的見解？
您是否想過使用K-means以觀察引入「新葯」後數據集羣如何變化？

我會親自計算這些基因的平均值和標準偏差，並且在藥物引入後也會這樣做。這應該有助於您瞭解邊界如何更改以及最有可能發生傳播的位置。另外，如果你有選擇的話，總是使用EDA（我知道我對此非常鼓吹，但它有很大的幫助）。我認爲這應該可以幫助你更好地瞭解你的問題。我希望我能幫上忙。

算法的有用鏈接：Machine Learning Algorithms

來源

2017-05-15 12:55:04 ZombieChowder

我會建議這樣做。最好的辦法是熟悉算法，並仔細查看遺傳算法。我希望我的回答能幫助你。 – ZombieChowder

我的問題可能太天真了...我應該學習更多的統計知識，然後問... 1。所有重複數據都是我的訓練數據。我認爲重複中的每個基因表達數據都定義了邊界。就像在我的第一個散點圖中，虛線區域定義了「耐受區」，然後在藥物治療後，我想找出哪些基因有顯着變化（掉出公差帶）7。這確實是類似於k-means聚類的東西，期望我不知道如何定義cluster1（重複之間的變化）和cluster2（藥物治療後顯着受影響的基因） – AlicePsyche

@AlicePsyche你知道該讀什麼以及從哪裏開始。我建議您不要將整個數據用作培訓數據，但要將其分成30％至70％或40％至60％之類的數據。查看** K-means **並熟悉如何決定需要多少個羣集。在線上還有很多關於機器學習的代碼示例，特別是在Python中。 – ZombieChowder

生物方差或真正受影響的基因。

回答

相關問題