data-cleaning

    0熱度

    1回答

    我有一些問題獲得這個數據是holt-winter模型的時間序列。我不知道下一步該怎麼做。 library(reshape) library(tidyr) tempdata = as.matrix(read.table("https://d37djvu3ytnwxt.cloudfront.net/assets/courseware/v1/592f3be3e90d2bdfe6a69f62374a

    0熱度

    4回答

    偶爾,我需要清理很凌亂的數據集,這是將pdf表導入電子表格的結果。當pdf文件被轉換時,所有的列保持正確的順序(相互關係),但空白列在它們之間任意分散。 這是一個非常簡化的例子。 data <- data.frame( W = sample(1:10), X = c("yes","no"," ","yes","no"," "," ","no","yes"," "), Y

    2熱度

    7回答

    我正在使用我正在刪除的欺詐性電子郵件地址清理數據集。 我建立了多個捕獲重複和欺詐域的規則。但有一個screnario,我不知道如何編寫python中的規則來標記它們。 所以我有這樣的例子規則: #delete punction df['email'].apply(lambda x:''.join([i for i in x if i not in string.punctuation]))

    0熱度

    1回答

    我有一個數據幀(df1)作爲單列數據報廢。 1 2 Amazon Pantry 3 Best Sellerin Soaps & Hand Wash 4 5 Palmolive Hygiene-Plus Sensitive Liquid Hand Wash, 300ml 6 Palmolive Hygiene-Plus Sensitive Liquid Hand Wash, 300ml

    0熱度

    1回答

    我有一個數據幀,我從我正在嘗試清理的CSV中讀取。這是什麼樣子: A B C 1 0 X;Y;Z true 2 2 Y;Z false 3 5 X:Y false 我試圖向上突破是B柱成二進制輸入這樣的: A B C has.x has.y has.z 1 0 X;Y;Z true 1 1 1 2 2 Y false 0 1 0 3 5 X:Y false 1 1

    0熱度

    1回答

    census_subdivision_profile_merged是一個數據框,在這裏我分別做了很多事情。有什麼辦法可以一次完成嗎? # Drop missing data census_subdivision_profile_merged = census_subdivision_profile_merged.dropna() census_subdivision_profile_merge

    10熱度

    2回答

    我想使用dplyr::case_when內dplyr::mutate創建一個新的變量,我設置一些值丟失,同時重新編碼其它值。 但是,如果我嘗試值設置爲NA,我得到一個錯誤,說我們不能創建變量new因爲NA s爲邏輯: Error in mutate_impl(.data, dots) : Evaluation error: must be type double, not logical. 有沒有

    1熱度

    1回答

    我有一些數據,其中每個第二列對應於特定時間,每個時間段分別具有「買入」和「賣出」的位置,並且這些位置中的每一個具有兩個因素如下所示)。然而,這些列的長度不相等,因此'銷售'選項從不同的行開始(埋在這些值中)。 time, time1, time, time2, time, time3 buy, , buy, , buy, factor1, 1, factor1, 2, factor1,

    0熱度

    3回答

    發生的2倍以上下面我有一個數據集的任何事件: id event date 1 A 2010-01-04 2 B 2011-02-11 2 A 2011-05-09 3 A 2005-11-01 1 A 2010-01-05 1 A 2010-08-09 2 A 2011-06-09 2 A 2011-08-25 3 A 2005-05-10 3 A 2001

    1熱度

    2回答

    熊貓操縱DF的問題在這裏 我要創造我原來的DF(DF)的新列是來自另一個DF(dfKey)的特定索引處的值。 我有點卡住(我敢肯定我錯過了一些明顯的東西,但我無法解碼當前錯誤消息'KeyError: 'Name')。 數據: import numpy as np import pandas as pd raw_data = {'Code': [250, 200, 875, 1200],