偶爾,我需要清理很凌亂的數據集,這是將pdf表導入電子表格的結果。當pdf文件被轉換時,所有的列保持正確的順序(相互關係),但空白列在它們之間任意分散。 這是一個非常簡化的例子。 data <- data.frame(
W = sample(1:10),
X = c("yes","no"," ","yes","no"," "," ","no","yes"," "),
Y
我正在使用我正在刪除的欺詐性電子郵件地址清理數據集。 我建立了多個捕獲重複和欺詐域的規則。但有一個screnario,我不知道如何編寫python中的規則來標記它們。 所以我有這樣的例子規則: #delete punction
df['email'].apply(lambda x:''.join([i for i in x if i not in string.punctuation]))
census_subdivision_profile_merged是一個數據框,在這裏我分別做了很多事情。有什麼辦法可以一次完成嗎? # Drop missing data
census_subdivision_profile_merged = census_subdivision_profile_merged.dropna()
census_subdivision_profile_merge
我想使用dplyr::case_when內dplyr::mutate創建一個新的變量,我設置一些值丟失,同時重新編碼其它值。 但是,如果我嘗試值設置爲NA,我得到一個錯誤,說我們不能創建變量new因爲NA s爲邏輯: Error in mutate_impl(.data, dots) : Evaluation error: must be type double, not logical. 有沒有
發生的2倍以上下面我有一個數據集的任何事件: id event date
1 A 2010-01-04
2 B 2011-02-11
2 A 2011-05-09
3 A 2005-11-01
1 A 2010-01-05
1 A 2010-08-09
2 A 2011-06-09
2 A 2011-08-25
3 A 2005-05-10
3 A 2001