plyr

    4熱度

    3回答

    我經常有數據,我想比較變量的一個級別與所有其他級別的變量的值。每次我編寫代碼來做到這一點,我希望它更容易。下面是一個問題的例子: 假設我想比較任何切割的鑽石的平均成本與最佳切割鑽石的平均成本。爲了使事情公平起見,我想單獨爲每個清晰度做這件事。 讓我們來看看,我們有足夠的數據:在理念 > with(diamonds,table(cut,clarity)) clarity cut

    9熱度

    2回答

    我使用ddply來聚合我的數據,但還沒有找到一個優雅的方式來分配列名到輸出數據框。 目前,我這樣做: agg_data <- ddply(raw_data, .(id, date, classification), nrow) names(agg_data)[4] <- "no_entries" 這 agg_data <- ddply(agg_data, .(classification,

    1熱度

    1回答

    我有日期/時間信息,我希望獲得按年份分組的「季節」日期的平均值,最小值,最大值,範圍以及唯一的方法我一直以輕微的成功做到這一點,就是用tapply。最接近的是tapply中的彙總函數。結果是我只假設的是按年份的最小,最大,第一曲線,中位數等等。這些並不完全是我需要的,但工作正常。 結果的例子我從tapply功能得到1季: $`2003` Min. 1st Qu.

    40熱度

    5回答

    這真的對我調試R代碼的能力提出了挑戰。 我想用ddply()相同的功能,適用於按順序命名不同的列;例如。 a,b,c。爲此,我打算重複傳遞列名作爲字符串,並使用eval(parse(text=ColName))來允許函數引用它。我從另一個答案中抓住了這個技巧。 這工作得很好,直到我把ddply()另一個函數內。以下是示例代碼: # Required packages: library(plyr)

    10熱度

    1回答

    我最近發現data.table包,現在想知道是否應該替換一些我的plyr代碼。總而言之,我非常喜歡plyr,而且我基本達到了我想要的一切。然而,我的代碼運行了一段時間,加快速度的前景足以讓我運行一些測試。那些測試很快就結束了,這就是原因。 我做了很多經常與plyr是包含日期一欄分割我的數據,並做一些計算: library(plyr) DF <- data.frame(Date=rep(c(Sys

    7熱度

    2回答

    我試圖在plyr包中使用daply函數,但是我無法正確輸出它。即使組成矩陣的變量是數字,矩陣的元素是列表,而不是變量本身。下面是數據例如爲了一小部分: Month Vehicle Samples 1 Oct-10 31057 256 2 Oct-10 31059 316 3 Oct-10 31060 348 4 Nov-10 31057 267 5 Nov-10 31059 2

    2熱度

    2回答

    我有一個鍵/值對列表,並希望將其轉換爲2d矩陣,其中單元格表示每個鍵/值組合的計數。下面是一個示例數據幀 doc_id,link 1,http://example.com 1,http://example.com 2,http://test1.net 2,http://test2.net 2,http://test5.net 3,http://test1.net 3,http://e

    1熱度

    1回答

    我已經寫了一個模型,我適合通過mle2包使用ML的數據。但是,我有大量的樣本數據框,我想將模型擬合到每個重複樣本,然後在數據框中檢索模型的所有係數。 我試圖在plyr包中使用ddply函數但沒有成功。 我收到以下錯誤消息時,我嘗試: Error in output[[var]][rng] <- df[[var]] : incompatible types (from S4 to logi

    5熱度

    1回答

    我想從R中使用for循環的幾個文件中編譯數據。我想將所有數據都放到一個表中。以下計算只是一個例子。 library(reshape) dat1 <- data.frame("Specimen" = paste("sp", 1:10, sep=""), "Density_1" = rnorm(10,4,2), "Density_2" = rnorm(10,4,2), "Density_3" =

    8熱度

    2回答

    我使用以下代碼來概括我的數據,通過使化合物,複製和質譜進行分組。 summaryDataFrame <- ddply(reviewDataFrame, .(Compound, Replicate, Mass), .fun = calculate_T60_Over_T0_Ratio) 一個不幸的副作用是,所得到的數據幀由那些字段排序。我想這樣做,並保持化合物,複製品和質量與原始數據框中