2013-01-11 45 views
0

我是新來的統計,R和一般的編程,在深入拋出之前只有很短的一段時間。然而,我渴望爲自己解決問題。變量a存在變量b的日期線圖?

我的第一個任務是檢查我已經給出的異常數據。我已收到一份電子表格,其中列Date,PersonIDPlaceID。我假設如果我將PersonID的每個因子與Date作圖,則直線會顯示沒有異常,因爲PersonID應該只能同時存在於一個地方。但是,我擔心如果在一個Date上有兩個相同的PersonID,我的情節無法顯示這一點。

我用簡單的代碼:

require(ggplot2) 
qplot(Date,PersonID) 

我的問題是,我不確定如何將Date因素納入這個問題。本質上,我試圖檢查沒有PersonID出現在同一Date多個PlaceID,並已嘗試了2天,無法弄清楚如何將這3個變量放在同一個圖上。

我不是要求某人爲我寫代碼。我只是想知道我是否在正確的思路上,如果是的話,我應該怎樣考慮讓R來繪製這個思路。有誰能夠幫助我?道歉,如果這個問題是相當長的囉嗦,或張貼在錯誤的地方。

+0

爲什麼你想用一個陰謀做到這一點? –

+0

我的主管建議,但已經離開了,所以我一直無法與他取得聯繫,並希望我的項目的這個階段能夠在下週迴歸。你會建議一種不同的方法嗎? – 2013-01-11 13:04:37

+0

我還會補充說在這個特定數據集中有近100000行。 – 2013-01-11 13:12:52

回答

1

如果您只想知道這是否發生在數據集中,請嘗試duplicated()。例如,假設您的數據幀被稱爲df

sum(duplicated(df[,c("Date","PersonID")])) 

將返回基於列Date和數據幀PersonID的大量重複。如果它大於零,則數據中有重複。

相關問題