data-manipulation

    0熱度

    3回答

    固定寬度的我有一個這樣的製表符分隔文件: RS1->2001 HAPLO1 AAACAAGGAGGAGAAGGAAA ... RS1->2001 HAPLO2 CAACAAAGAGGAGAAGGAAA ... RS1->2002 HAPLO1 AAAAAAGGAGGAAAAGGAAA ... RS1->20020 HAPLO2 CAACAAGGAGGAAGCAGAGC ... RS1->2

    1熱度

    2回答

    我試圖在R中執行線性迴歸的結果並將這些結果存儲在數據庫中。 具體來說,我後面的是coef(summary(myModel)中的數據。我可以將它變成一個數據幀並使用sqlSave(),但係數名稱不是數據幀中的列。如何將係數和變量名稱放入一個可以使用sqlSave()保存的數據框? 爲清楚起見,我想存儲在數據庫表中的數據具有列: VARIABLENAME,評估,StdError,tValue,p值 是

    3熱度

    2回答

    我有一個只包含'a'或'g'的字符向量,我想根據頻率將它們轉換爲整數,即更多頻繁的一個應該被編碼爲0,其他爲1,例如: set.seed(17) x = sample(c('g', 'a'), 10, replace=T) x # [1] "g" "a" "g" "a" "g" "a" "g" "g" "a" "g" x[x == names(which.max(table(x)))] =

    2熱度

    1回答

    我有一塊數據中的哪一個在字符數組的形式: cgcgcg aacacg cgcaag cgcacg agaacg cacaag agcgcg cgcaca cacaca agaacg cgcacg cgcgaa 注意每列僅由兩種類型的字符。我需要根據它們在列中的百分比將它們轉換爲整數0或1。例如在第1列中,有8個c和4個a,因此c佔多數,那麼我們需要將它編碼爲0,另一個爲1

    0熱度

    3回答

    我有一個巨大的數據文件(〜2 G),需要分割成奇數行和偶數行,分別處理並寫入兩個文件,我不想讀取整個文件放入RAM中,所以我認爲一個發生器應該是一個合適的選擇。總之我想做這樣的事情: lines = (l.strip() for l in open(inputfn)) oddlines = somefunction(getodds(lines)) evenlines = somefunctio

    0熱度

    1回答

    我想重新編碼基於已經存在的變量創建新的變量。下面的代碼就是我想到的。有沒有更好的方法來做到這一點?例如,我必須事先創建單獨的矩陣,還是可以輕鬆地在我現有的數據集中創建新變量? rec<-c("col1", "col2", "col3", "col4") recmat<-as.data.frame(matrix(NA,800, length(rec))) recmat[, 1:length(r

    1熱度

    1回答

    在R,我有三個時間點 時間< - C(7,1,4) 並假設時間段被劃分成三個區間:(0,3] ,(3,5],(5,8] breaks <- c(3, 5, 8) timeSpent具有用於每個觀察每個PE一行和一列荒漠化問題。它給每個觀測在每個週期中所花費的時間: timeSpent <- outer(X=time, Y=breaks, FUN=pmin) timeSpent <- cbin

    1熱度

    2回答

    我試圖配對元件在兩個矩陣,其由下面的代碼塊生成: set.seed(29) y = rnorm(16) yn = paste('n', 1:16, sep='') y = embed(y, 3) yn = embed(yn, 3) ycomp = y[, rep(3, ncol(y))] yncomp = yn[, rep(3, ncol

    0熱度

    4回答

    我有兩個值:兩者都可以是整數或字符串。 我需要格式化(使用PHP)我的輸出字符串在一個非常特定的格式。 輸出字符串的長度需要10 首先變量需要在左側被「對齊」。 第二個變量需要在右邊「對齊」。 剩餘未使用的字符(如果有)應該用空格填充。 例如: In: $var1 = 123456; $var2 = 'XX'; Result: '123456 XX' In: $var1 = 1; $v

    3熱度

    2回答

    我使用R的內置相關矩陣和層次聚類方法將日銷售數據分割爲10個集羣。然後,我想按羣集創建聚集的每日銷售數據。例如,儘管我創建了一個cutree()對象,但難以僅提取cutree對象中列名稱爲1的列名稱。 爲簡單起見,我將使用EuStockMarkets數據集並將樹切成2段;請記住,我在這裏工作數千列,因此需要可擴展: data=as.data.frame(EuStockMarkets) corr