R相對較新,因此對於無能爲力提前道歉。計算數據幀內變量的重複次數,並計算出它的成比例出現
我在多個國家的多個國家的多個站點使用幾個(非常大的)觀測數據集。我需要計算第x周在第x周提交觀察數據的網站總數(本質上是存在/缺失數據)中記錄了特定物種的網站的比例。我有一個數據集,其中給出了每個人的詳細信息物種觀察,以及每週觀測總數的另一個。因此,我需要一些功能來計算該週記錄的物種數量,然後將其除以同一周內記錄任何物種觀測數據的總數。 觀察記錄爲一週(1-53)和一年(1995-2011)。 species.data的
例(上市爲csv,便於粘貼):
SITE_ID, SPECIES, WEEKNO, YEAR
1289, Attenb., 1, 1995
1538, Attenb., 1, 1995
1894, Attenb., 2, 1995
1286, Attenb., 4, 1995
1238, Attenb., 7, 1995
1892, Attenb., 7, 1995
和示例total.obs.data的:
YEAR, WEEKNO, TOTALOBS,
1995, 1, 100
1995, 2, 780
1995, 3, 100
1995, 4, 189
1995, 5, 382
1995, 6, 100
1995, 7, 899
1995, 8, 129
(所以我在這裏就沒有說在1995年第一週的比例是2/100,並且能夠構建GLM或GAM)
你的問題並不難。您可以使用重塑和一些子集的組合來輕鬆完成此操作。但請提供可重複使用的樣本數據集。例如,第二數據集中的物種在哪裏? – ECII
如果它是一個大數據集'data.table'包可能是你的朋友。 –
正如@TylerRinker所評論的那樣,請定義「超大」數據集的含義。有大型,大型和大型數據集。 – ECII