data-cleaning

    1熱度

    1回答

    當前數據幀 id, date, quantity 1,2017-08-01,22 2,1900-01-01,31 3,2017-08-01,44 4,2017-08-02,12 5,1900-01-01,22 6,1900-01-01,31 7,2017-08-02,44 8,2017-08-03,12 所需的輸出 id, date, quantity 1,2017-08-0

    0熱度

    1回答

    我有一個由ID組成的數據集,每個ID都存在於時間戳範圍的某個子集中。有1813個時間戳[0,...,1812],並且在所有時間戳上存在一些ID,一些超出範圍(0,n),一些超過(n,m)和一些超過(m,1812)。每個ID在其存在的每個時間戳處具有108個特徵。 我目前創建ndarray使用以下行: # Shape: (1424, ?, 108) = (numIDs, numIDTimestamp

    0熱度

    1回答

    扯皮我有Python中的數據幀DF Age product ------------------ 21 apple 11 orange eighteen mango 35 pineapple 35 122 NA apple 30 -1 我只想年齡數值列,我怎麼會丟棄哪些不是整數的行。 同樣在產品中,我只需要字符串,我將如何刪除不是字符串的值。

    0熱度

    1回答

    我想只保留Dataframe的行,並且符合以下條件:起始條件爲col1 = 0, col2 = 1和間隔結束爲col1 = 0, col2 = 2的間隔(包含)。 的樣本數據 import pandas as pd pd.DataFrame({'id':['id1','id1','id1','id1','id1','id1','id1','id1','id1','id1','id1','id2

    0熱度

    2回答

    這是我一直試圖通過這幾天的項目。我們正在尋找更好的方法來將財務數據整合到我們的儀表板中,但是我們使用的軟件以令人厭惡的方式輸出我們的數據,這種方式無法插入任何類型的程序,因爲它可以讓人們直觀地瀏覽並獲得想法。 我希望得到關於如何正確編寫代碼的建議,但是如果我在解決它的方法上瘋了。這個數據已經被大量清除,所以請讓我知道如果有什麼可怕的錯誤: Expense Categories Jan Ac

    0熱度

    1回答

    我有這個CSV數據集,我需要創建一個函數來執行數據清理,但仍然無法正常工作,而且我的想法已經過時。 以下是Google雲端硬盤上的dataset。 這是我需要做的: 糾正可能的輸入 刪除不相關的數據(僅在奧克蘭和惠靈頓的房屋被認爲是) 刪除離羣值,例如負值區,負功耗,非常高的地區,非常高的功率消耗 到目前爲止,這是我做的代碼: # Reading data set installed.packa

    1熱度

    1回答

    有一個奇怪的空白字符,我似乎無法擺脫那偶爾會出現在我的數據從Excel導入時。顯然,它會作爲空白字符出現,但SQL Server將其視爲問號(ASCII 63)。 declare @temp nvarchar(255); set @temp = '[email protected]?am.com' select @temp 回報: [email protected]?am.com 我怎樣

    2熱度

    2回答

    我已經在python中編寫腳本來從一些html元素中刪除一些文本。我寫的腳本可以解析它。然而,問題在於數據正在被解析,它們之間有巨大的空間。我嘗試了.strip()方法,但對結果沒有任何影響。我該如何解決它? HTML元素: html=""" <div class="organisation-details"> <div class="personnel shaded">

    1熱度

    4回答

    我有一個數據框在R magic query與一列device id和另一個time。時間格式爲2013-05-02 09:20:12 dataframe按升序排列。我試圖刪除time列僅基於天數的所有行大於其上方行的X天。 有沒有辦法應用這個?

    0熱度

    1回答

    很多時候我們需要提取一個大的隨機樣本dataset?在openrefine上做什麼最好的方法是?這對於在R和Python中用於執行此操作的從業人員可能很有用。 在此先感謝您的任何建議!