子集基於r中不同行的數據幀

經過20個小時，沒有得到答案！我想我必須簡化我的問題：子集基於r中不同行的數據幀

我有104個文件（我把它們放在一個單一的數據框中）。每個文件有6列。第一列可以分爲50個組。每個文件對於這50個組中的每個組都有不同的記錄數。我只需要保存1000條記錄。我嘗試了一個嵌套for循環，但它不起作用。

大家好。我想知道是否有人可以幫助R編程新手。我必須對包含4911703行（obs。）的6個變量的巨大文件進行排序。

Kindly, you can download a brief scheme of this data frame here

數據幀具有6列{V1，V2，V3，V4，V5，V6}

在這個文件中，V1具有50個不同的號碼稱爲主題（451，452，... ，500），V6有104個不同的系統名稱。 V1中的每個系統在每個數字（主題）中都有大約1000條記錄。例如1000個記錄爲451個，1000個記錄爲452個等。我必須對這個數據框進行排序。我在plyr軟件包中使用了arrange()。因此，其中一列「V4（等級）」的列沒有排序，我必須通過添加一個名爲「new_rank」的新列重新排列數據。我爲此重新排名使用了「嵌套」。

for(i in 1:50){ 
    for(i in 1:?) 
    clean_file["newRank"] <- 0:1000 
}

問題：不幸的是，V1中每個主題的系統記錄並不相同。一個系統可能擁有1045個451記錄，另一個系統可能擁有1345個記錄。所以，我在第二個'for'中遇到了問題。因爲我只需要V1中的每個主題的1000條記錄，所以我在重新排列數據框之前嘗試對數據框進行子集分類。但我不知道該怎麼做！換句話說，我希望V6中的每個104系統的每個主題只有1000個記錄[104 x 1000 x 50]。我想知道有沒有人能幫我解決這個問題。先謝謝了。

PS我通過list.files和ldply（file，readt.table）讀取104個文件來製作這個巨大的文件。我試圖在多個數據框中讀取這些文件，而不是一個，但我又遇到了失敗。

來源

2014-03-27 MASUMEH

在這裏沒有必要'for'循環。您想要按數據排序的變量是什麼？另外，我不想下載你的文件，請在你的數據集上運行'deput'，並在這裏發帖 –

@Dave在冒着被人愚蠢的危險的情況下，我想問一下數據集上的「deput」是什麼意思？ – MASUMEH

我的意思是'dput'。 –

你可以用data.table包做一行。假設「數據」是您的數據集，並且您想按以下順序V2→V3→V4→V5→V6訂購數據（您可以將訂單更改爲order(函數中的任何一種）那麼你應該這樣做：

library(data.table) 
shortdata <- as.data.frame(data.table(data)[order(V2, V3, V4, V5, V6), head(.SD, 1000), by = "V1"])

來源

2014-03-28 09:12:13

子集基於r中不同行的數據幀

回答

相關問題