data-cleaning

1熱度

2回答

如果我有一個鬆散形式的輸入文件（當我說鬆散形式時，我的意思是並非所有行都包含所有信息，如後面所解釋的）： 23 1990-10-10 Clark Kent 我想定義一組年齡，日期和名字，我怎麼去提取這些到一個名爲groupdict（）如 { age: 23, date: '1990-10-10', name: 'Clark Kent' } 如果字段年齡或日期缺失，如： 1990-10-1

-1熱度

2回答

基於任何標準之一刪除數據行

我正試圖用不同的錯誤消息之間的aprori算法創建一些關聯規則。有幾個我不想考慮的錯誤，所以我想刪除包含這些選擇錯誤的行。我的問題是我只能使用下面的代碼刪除一個錯誤。 mydata <-data[!(data$Message=="errormessageone") ,] 是否有一個「或」操作，可以爲了去除含有任何我想從我的數據排除了12點左右的誤差線被整合到這一點。類似於以下內容。 my

1熱度

3回答

[R串清潔

我與一些字符串，這是非常混亂的工作如下圖所示 Value ------------------- 25 32.12 . (05- 33.90 , 46.70 , () 26.60 27.2 23.24 . (12- 36.52 , 27.1814404432133 [ 29.73 . (22- 31.8058003525076 [ 35.40 , 38.44 . 46

-2熱度

2回答

什麼是從報廢的網絡數據中剝離HTML的最簡單方法，以便我只留下一串字？

我有興趣從各種網站收集大量的文本語料庫。結果將會有很多html。有沒有簡單的方法來擺脫HTML，這樣我就只剩下可以分析的字串了？我不介意付錢，但我更喜歡免費和快速的工具。我看了一下，它看起來像你可以手動使用python中的美麗湯等包，或使用像import.io這樣的付費服務來自動清理數據。但是有沒有更好的工具可用於從原始文本中剝離html？

0熱度

2回答

轉換多列與NA對行

我有一個大的數據幀（約100個列）： col1| col2| col3| col4| col5| col6| col7 ----------------------------------------- A 1 2 NA NA NA NA A 3 4 NA NA NA NA B NA NA 1 3 NA NA B NA NA 2 3 NA NA C NA

-2熱度

1回答

如何從所有列在這個問題中使用

數據集是從ISLR包「工資」中刪除數字或文本元素 library(ISLR) head(Wage) year age maritl race education region jobclass health 1 2006 18 1. Never Married 1. White 1. < HS Grad 2. Middle Atlantic 1. In

0熱度

1回答

自由報辦公室鈣和Excel呈現不同的價值

我試圖做一些Python日期解析和在分析我來到這個奇怪的錯誤說 time data 'nan' does not match format '%d/%m/%y' 正如我在LibreOffice中檢查了我的的.csv文件一切看起來都很好。沒有南值什麼如此。但是，當我在Excel中檢查它（Excel移動版本。因爲我不想支付），我看到不同的價值。在不同的編輯器被顯示爲值如下自由報辦公室鈣 - 11

0熱度

1回答

如何滿足開放細化中的空白字段？

我發現了空白的行，這已經很棒了。現在我想輸入「Not informed Value」給所有的空白值，但我不知道如何，任何提示。在此先感謝！我與這個分佈式社區合作愉快！ Joni

0熱度

2回答

尋找一種方法來計算openrefine中的時間流逝

這是OpenRefine上GREL語言的給定表達式。差異（日期D1，D2日期，可選的字符串TIMEUNIT）對於日期，返回給定的時間單位的差異。所以問題是如何獲得這兩個列的值的訪問權限，這是不明確的文檔上提出的。感謝

1熱度

1回答

在熊貓數據框中提取和解析日期

我想將日期變得凌亂的筆記本轉換爲熊貓中的排序日期序列。 0 03/25/93 Total time of visit (in minutes):\n 1 6/18/85 Primary Care Doctor:\n 2 sshe plans to move as of 7/8/71 In-Home Servic... 3 7 on 9/27/75 Audit C S