data-cleaning

    1熱度

    3回答

    我試圖找到我的任何領域不在A-ZA-Z0-9範圍的特殊字符數據的特殊字符的方式。但是,如果我嘗試此查詢: select Name from table where Name like '%[?]%' 我得到兩個記錄: ???? ????? 固定????? 這就是我想要的。然而,因爲我不知道特殊字符的將是什麼,我需要使用數據的排斥已經混合字符: select Name from table wh

    0熱度

    1回答

    我在編程(Python)方面仍然是一個新手,並且更新一個約40,000個聯繫人列表的任務時有點不知所措。顯然,我不想這樣做手動,並試圖找出如何最好地自動化任務。任何意見或幫助指向正確的方向將不勝感激。這裏有問題: 我需要確保該信息仍然是最新的(即該人仍然工作在同一家公司和/或沒有改變他的職位)。什麼是最好的方法來做到這一點?解析LinkedIn?試圖找到他們的Facebook個人資料,並希望他們透

    0熱度

    1回答

    我想要的值有其他的東西,即數字變量的第四個數字上的0爲NA。 下面的代碼是我嘗試: dataframecolumn[which(substring(dataframecolumn) != %%%0)] = NA 但我無法得到它的工作。有人能幫我解決這個問題嗎?

    3熱度

    1回答

    我在這裏有一個清潔的情況,舊的程序員沒有清理他的用戶數據庫&。 雖然有些數據庫仍然由外部站點(在其他ftp服務器上)使用,但有些數據庫已過時,只是使系統混亂。 我的問題是:我怎麼能弄清楚至極數據庫(&用戶) 仍在使用其他網站? (不檢查每一個網站 ,迄今爲止,創造了在以往任何時候這可能位於) 我需要確保一個MySQL數據庫(&用戶)不activly被任何網站了,所以我可以安全地刪除它來清理系統。

    1熱度

    1回答

    作爲一個初學者,我想問問你哪種清潔大型.csv數據的更優雅/有效的方法:我嘗試了兩種解決方案(在help()這裏找到,在文獻中),但我不確定是否有更好的東西(即帶循環?),你可以建議我。 我的(不是很R-友好)的.csv數據(523行,47列,這裏僅僅是個開始): ;;; ;;; ;;; Name;#1;#2;#3 Correction;;; Date;19.09.2016;19.0

    -1熱度

    1回答

    我正在嘗試對特定數據庫實施各種條件格式。在這裏尋找答案,但找不到類似的東西。不可能,但值得一試。 我正在執行各種數據清理和驗證。 這裏的情況:(小樣本,在這個特殊的文件,100K數據輸入工作) 最後我要的是,將在最後的低級別說明文字比較公式「 UNDERSCORE「後面的字符(高亮顯示)。如果不匹配,則突出顯示該單元格? 問太多了,是的,不,也許?對於我如何執行各種數據清理和驗證,我願意接受任何其

    0熱度

    1回答

    我需要從日期時間字段創建日期列和時間列。 數據的結構: Date.Time: POSIXct, format: "2017-04-01 05:17:02" "2017-04-01 05:18:20" "2017-04-01 05:25:24" "2017-04-01 05:31:46" .. data: 我做R中 hour_min <- format(as.POSIXct(strptime(F

    0熱度

    2回答

    如何從pandas數據框列中的文本中刪除非ASCII字符(例如,??????????????)? 我曾嘗試以下,但沒有運氣 df = pd.read_csv(path, index_col=0) for col in df.columns: for j in df.index: markup1 = str(df.ix[j, col]).replace("\r", "") m

    0熱度

    1回答

    我有這樣一個數據幀的條件之一列分離成兩個: Category <-c("Agriculture","Education","Education","Energy","Environment","Finance","Governance","Governance","Economics","Economics","Equality","Society" , "Protection","Trade",

    1熱度

    3回答

    變量錯誤地輸入到多列,例如:「aaa_1」,「aaa_2」和「aaa_3」或「ccc_1」,「ccc_2」和「ccc_3」)。單個新列(例如「aaa」或「ccc」)。一些變量當前在單列中(「hhh_1」),但可以添加更多列(hhh_2等)。 : aaa_1 <- c(43, 23, 65, NA, 45) aaa_2 <- c(NA, NA, NA, NA, NA) aaa_3 <- c(N