我有大約17000行的文件,我預製上識別所有的異常值從迴歸分析
Gene_id expA expB
GeneA 5.462109 5.006181
GeneB 2.667692 4.208152
GeneC 4.796976 4.122660
GeneD 3.127125 3.676322
GeneE 4.500583 4.104575
GeneF 4.598430 4.853717
一個簡單的線性迴歸和我預製利用迴歸分析
plot(log2(data$expA)~log2(data$expB))
regression <- lm(log2(moved.data$expA)~log2(moved.data$expB))
abline(regression)
我感興趣我的迴歸分析發現哪些基因異常。
我試過使用identify(log2(data$expA)~log2(data$expB), row.names(data))
函數,但我在圖中有很多點,所以要逐個點擊它們對我來說似乎不可行。
我也看了這裏: Outliers with robust regression in R
,但並沒有告訴我如何找出異常
你是如何界定「異常」?沒有普遍接受的統計定義。 – MrFlick
不應該是顯着偏離線性迴歸線的東西,它不適合「線性模型」井 – user3816990