data-cleaning

    0熱度

    1回答

    我正在處理數據集bookdata.tsv.gz作爲我的第一個任務。對於所有圖書標籤,我需要從我的分析中排除標題「wild animus」。如何才能去做 ?我只是一個初學者,所以對代碼塊的一點解釋將不勝感激。由於

    0熱度

    2回答

    我試圖使R(開源統計腳本語言)中的一些數據的子集。我嘗試了兩種方法,但我都沒有成功。一個返回一個沒有數據的表格,另一個返回一個包含所有「NA」單元格的表格,但是表格顯示正確的維度。 我佈置的代碼很清楚commented-- 首先,我創造的,我會使用子集數據郵政編碼列表。郵政編碼列表來自我將要使用的數據集。 郵編列表被稱爲「zipCodesOfData」 接下來,我下載犯罪數據我將被子集。我基本上只

    1熱度

    1回答

    我試圖用從API中拉出的列表中的NAs替換NULL值,但長度不同,因此無法替換。 我已經嘗試在toxboot包(找到here)中使用nullToNA函數,但是當我試圖調用它時,它不會在R中找到該函數(我不知道是否有更改我找不到或者是因爲列表不是從MongoDB中提取的)。我也嘗試了所有函數調用檢查here。我的代碼如下。任何幫助? library(httr) library(toxboot)

    1熱度

    3回答

    我有一個數據集,其中包含一個人離開網絡時的日期。一個人可以多次離開網絡,因爲他們可能在離開網絡後再次加入網絡。以下代碼複製該場景。 library(data.table) Leaving_Date<- data.table(Id= c(1,2,3,4,3,5),Date = as.Date( c("2017-01-01","2017-02-03","2017-01-01","2017-03-10

    1熱度

    1回答

    我正在處理一個包含大約200行的數據框,我想刪除重複的行,將「分鐘」列中的值加在一起。我對R相當陌生,而且我還沒有找到辦法做到這一點。它涉及到應用正則表達式嗎?我真的很感激任何解決方案! 數據幀我有看起來像這樣: df <- data.frame(name = c("Adam Tucker", "AdamTucker", "[email protected]", "adamtucker", "Ja

    0熱度

    2回答

    我想用R來確定數據集中的錯誤。數據集由一列中的時間(秒)和另一列中是否出現「運行」組成。 RunStart欄中的「0」表示運行的開始,而「1」只是運行的延續。 在下面的示例表中,運行中的時間間隔應爲10秒。 我想知道運行何時開始,如果所有後續值都是10秒的倍數並確定所有行不是真的。在這個例子中,所有的行都是正確的,第9行與第8行在同一次運行中有9秒的差異。如何隔離大數據集中的第9行等錯誤? Tim

    0熱度

    1回答

    我有一個大的數據框與16列(變量),我需要一種方法來減少其大小(記錄數)根據條件。想知道是否有人在這裏知道如何做到這一點。R 我需要根據這個清理文件。它包含以下列:「員工ID」,「年」,「月」和「終止」。變量「Termed」被編碼爲0 =有效,1 =有效。因此,每個「員工ID」有多行(他們在公司工作的每個年份和每月都有一行),直到「終止」列中的值爲「1」,或者沒有更多關於該特定數據的數據「員工ID

    0熱度

    2回答

    List1以下是使用Python 2.7在圖像上使用OCR處理創建的。 List1 = ["ERNR'W\xe2\x80\x98IWW/ftfi M '* \xe2\x80\x98\r\n", '\xe2\x80\x98 L n 4\r\n', 'May 2001\r\n', '31 Thursday ,_,,\r\n', '(161-214)\r\n', '0700\r\n'] 它包括我希望

    0熱度

    1回答

    如果之前詢問過此問題,我不會感到驚訝,但是在我的搜索中找不到確切的問題。 我的數據包括兩個數據幀: ID = c("patient1", "patient2", "patient3") phenodf = as.data.frame(ID) phenodf$status = c("sick", "healthy", "sick") row.names(phenodf) = phenodf$I

    1熱度

    2回答

    嗨我想刪除特定短語之前的行,然後在稍後出現的相同(幾乎)短語之後。我想另一種看待它的方法是隻保留某個部分的開始和結束的數據。 我的數據如下: df <- data.frame(time = as.factor(c(1,2,3,4,5,6,7,8,9,10,11,12,13)), type = c("","","GMT:yyyy-mm-dd_HH:MM:SS_LT:2016-10-1