data-cleaning

0熱度

1回答

我有一些問題獲得這個數據是holt-winter模型的時間序列。我不知道下一步該怎麼做。 library(reshape) library(tidyr) tempdata = as.matrix(read.table("https://d37djvu3ytnwxt.cloudfront.net/assets/courseware/v1/592f3be3e90d2bdfe6a69f62374a

0熱度

4回答

什麼是清理data.frame的最佳方式，哪些行值的排序正確，但是被NA列任意分隔？

偶爾，我需要清理很凌亂的數據集，這是將pdf表導入電子表格的結果。當pdf文件被轉換時，所有的列保持正確的順序（相互關係），但空白列在它們之間任意分散。這是一個非常簡化的例子。 data <- data.frame( W = sample(1:10), X = c("yes","no"," ","yes","no"," "," ","no","yes"," "), Y

2熱度

7回答

python：數據清理 - 檢測欺詐性電子郵件地址的模式

我正在使用我正在刪除的欺詐性電子郵件地址清理數據集。我建立了多個捕獲重複和欺詐域的規則。但有一個screnario，我不知道如何編寫python中的規則來標記它們。所以我有這樣的例子規則： #delete punction df['email'].apply(lambda x:''.join([i for i in x if i not in string.punctuation]))

0熱度

1回答

R數據清理

我有一個數據幀（df1）作爲單列數據報廢。 1 2 Amazon Pantry 3 Best Sellerin Soaps & Hand Wash 4 5 Palmolive Hygiene-Plus Sensitive Liquid Hand Wash, 300ml 6 Palmolive Hygiene-Plus Sensitive Liquid Hand Wash, 300ml

0熱度

1回答

在R中按行應用賦值

我有一個數據幀，我從我正在嘗試清理的CSV中讀取。這是什麼樣子： A B C 1 0 X;Y;Z true 2 2 Y;Z false 3 5 X:Y false 我試圖向上突破是B柱成二進制輸入這樣的： A B C has.x has.y has.z 1 0 X;Y;Z true 1 1 1 2 2 Y false 0 1 0 3 5 X:Y false 1 1

0熱度

1回答

如何優化此代碼以替換列和索引？

census_subdivision_profile_merged是一個數據框，在這裏我分別做了很多事情。有什麼辦法可以一次完成嗎？ # Drop missing data census_subdivision_profile_merged = census_subdivision_profile_merged.dropna() census_subdivision_profile_merge

10熱度

2回答

與dplyr避免類型衝突:: case_when

我想使用dplyr::case_when內dplyr::mutate創建一個新的變量，我設置一些值丟失，同時重新編碼其它值。但是，如果我嘗試值設置爲NA，我得到一個錯誤，說我們不能創建變量new因爲NA s爲邏輯： Error in mutate_impl(.data, dots) : Evaluation error: must be type double, not logical. 有沒有

1熱度

1回答

長度不等的列和埋在這些列中的標題

我有一些數據，其中每個第二列對應於特定時間，每個時間段分別具有「買入」和「賣出」的位置，並且這些位置中的每一個具有兩個因素如下所示）。然而，這些列的長度不相等，因此'銷售'選項從不同的行開始（埋在這些值中）。 time, time1, time, time2, time, time3 buy, , buy, , buy, factor1, 1, factor1, 2, factor1,

0熱度

3回答

找出內任何12個月利用R

發生的2倍以上下面我有一個數據集的任何事件： id event date 1 A 2010-01-04 2 B 2011-02-11 2 A 2011-05-09 3 A 2005-11-01 1 A 2010-01-05 1 A 2010-08-09 2 A 2011-06-09 2 A 2011-08-25 3 A 2005-05-10 3 A 2001

1熱度

2回答

搜索並從特定記錄/索引一個數據幀中添加值在特定的行/指數另一DF

熊貓操縱DF的問題在這裏我要創造我原來的DF（DF）的新列是來自另一個DF（dfKey）的特定索引處的值。我有點卡住（我敢肯定我錯過了一些明顯的東西，但我無法解碼當前錯誤消息'KeyError: 'Name'）。數據： import numpy as np import pandas as pd raw_data = {'Code': [250, 200, 875, 1200],