data-cleaning

    1熱度

    2回答

    如果我有一個鬆散形式的輸入文件(當我說鬆散形式時,我的意思是並非所有行都包含所有信息,如後面所解釋的) : 23 1990-10-10 Clark Kent 我想定義一組年齡,日期和名字,我怎麼去提取這些到一個名爲groupdict()如 { age: 23, date: '1990-10-10', name: 'Clark Kent' } 如果字段年齡或日期缺失,如: 1990-10-1

    -1熱度

    2回答

    我正試圖用不同的錯誤消息之間的aprori算法創建一些關聯規則。 有幾個我不想考慮的錯誤,所以我想刪除包含這些選擇錯誤的行。 我的問題是我只能使用下面的代碼刪除一個錯誤。 mydata <-data[!(data$Message=="errormessageone") ,] 是否有一個「或」操作,可以爲了去除含有任何我想從我的數據排除了12點左右的誤差線被整合到這一點。 類似於以下內容。 my

    1熱度

    3回答

    我與一些字符串,這是非常混亂的工作如下圖所示 Value ------------------- 25 32.12 . (05- 33.90 , 46.70 , () 26.60 27.2 23.24 . (12- 36.52 , 27.1814404432133 [ 29.73 . (22- 31.8058003525076 [ 35.40 , 38.44 . 46

    -2熱度

    2回答

    我有興趣從各種網站收集大量的文本語料庫。結果將會有很多html。有沒有簡單的方法來擺脫HTML,這樣我就只剩下可以分析的字串了? 我不介意付錢,但我更喜歡免費和快速的工具。 我看了一下,它看起來像你可以手動使用python中的美麗湯等包,或使用像import.io這樣的付費服務來自動清理數據。 但是有沒有更好的工具可用於從原始文本中剝離html?

    0熱度

    2回答

    我有一個大的數據幀(約100個列): col1| col2| col3| col4| col5| col6| col7 ----------------------------------------- A 1 2 NA NA NA NA A 3 4 NA NA NA NA B NA NA 1 3 NA NA B NA NA 2 3 NA NA C NA

    -2熱度

    1回答

    數據集是從ISLR包「工資」中刪除數字或文本元素 library(ISLR) head(Wage) year age maritl race education region jobclass health 1 2006 18 1. Never Married 1. White 1. < HS Grad 2. Middle Atlantic 1. In

    0熱度

    1回答

    我試圖做一些Python日期解析和在分析我來到這個奇怪的錯誤說 time data 'nan' does not match format '%d/%m/%y' 正如我在LibreOffice中檢查了我的的.csv文件一切看起來都很好。沒有南值什麼如此。但是,當我在Excel中檢查它(Excel移動版本。因爲我不想支付),我看到不同的價值。在不同的編輯器被顯示爲值如下 自由報辦公室鈣 - 11

    0熱度

    1回答

    我發現了空白的行,這已經很棒了。現在我想輸入「Not informed Value」給所有的空白值,但我不知道如何,任何提示。 在此先感謝!我與這個分佈式社區合作愉快! Joni

    0熱度

    2回答

    這是OpenRefine上GREL語言的給定表達式。 差異(日期D1,D2日期,可選的字符串TIMEUNIT) 對於日期,返回給定的時間單位的差異。 所以問題是如何獲得這兩個列的值的訪問權限,這是不明確的文檔上提出的。 感謝

    1熱度

    1回答

    我想將日期變得凌亂的筆記本轉換爲熊貓中的排序日期序列。 0 03/25/93 Total time of visit (in minutes):\n 1 6/18/85 Primary Care Doctor:\n 2 sshe plans to move as of 7/8/71 In-Home Servic... 3 7 on 9/27/75 Audit C S