經過20個小時,沒有得到答案!我想我必須簡化我的問題:子集基於r中不同行的數據幀
我有104個文件(我把它們放在一個單一的數據框中)。每個文件有6列。第一列可以分爲50個組。每個文件對於這50個組中的每個組都有不同的記錄數。我只需要保存1000條記錄。我嘗試了一個嵌套for循環,但它不起作用。
大家好。我想知道是否有人可以幫助R編程新手。我必須對包含4911703行(obs。)的6個變量的巨大文件進行排序。
Kindly, you can download a brief scheme of this data frame here
數據幀具有6列{V1,V2,V3,V4,V5,V6}
在這個文件中,V1具有50個不同的號碼稱爲主題(451,452,... ,500),V6有104個不同的系統名稱。 V1中的每個系統在每個數字(主題)中都有大約1000條記錄。例如1000個記錄爲451個,1000個記錄爲452個等。我必須對這個數據框進行排序。我在plyr軟件包中使用了arrange()
。因此,其中一列「V4(等級)」的列沒有排序,我必須通過添加一個名爲「new_rank」的新列重新排列數據。我爲此重新排名使用了「嵌套」。
for(i in 1:50){
for(i in 1:?)
clean_file["newRank"] <- 0:1000
}
問題:不幸的是,V1中每個主題的系統記錄並不相同。一個系統可能擁有1045個451記錄,另一個系統可能擁有1345個記錄。所以,我在第二個'for'中遇到了問題。 因爲我只需要V1中的每個主題的1000條記錄,所以我在重新排列數據框之前嘗試對數據框進行子集分類。但我不知道該怎麼做!換句話說,我希望V6中的每個104系統的每個主題只有1000個記錄[104 x 1000 x 50]。我想知道有沒有人能幫我解決這個問題。先謝謝了。
PS我通過list.files和ldply(file,readt.table)讀取104個文件來製作這個巨大的文件。我試圖在多個數據框中讀取這些文件,而不是一個,但我又遇到了失敗。
在這裏沒有必要'for'循環。您想要按數據排序的變量是什麼?另外,我不想下載你的文件,請在你的數據集上運行'deput',並在這裏發帖 –
@Dave在冒着被人愚蠢的危險的情況下,我想問一下數據集上的「deput」是什麼意思? – MASUMEH
我的意思是'dput'。 –