outliers

    3熱度

    1回答

    我目前正在努力查明在我的數據使用Python中IsolationForest方法設置異常,但不完全理解上sklearn的例子: http://scikit-learn.org/stable/auto_examples/ensemble/plot_isolation_forest.html#sphx-glr-auto-examples-ensemble-plot-isolation-forest-p

    0熱度

    1回答

    我使用下面的代碼嘗試用特定的值替換低於底部2.5%和高於頂部97.5%的變量值。您可以執行該代碼。它提供了開放的數據文件。 credit<-read.csv("http://freakonometrics.free.fr/german_credit.csv", header=TRUE) fun <- function(x){ quantiles <- quantile(x, c(.02

    2熱度

    1回答

    我想將this file轉換爲pandas數據框。 import pandas as pd import scipy.io mat = scipy.io.loadmat('cardio.mat') cardio_df = pd.DataFrame(mat) 我得到這個錯誤: Exception: Data must be 1-dimensional

    -1熱度

    1回答

    我在這裏遇到了一個大問題,我真的很感謝一些幫助。基本上我有一個大的數據框,看起來像這樣。請注意所有此R代碼在終端而不是R STUDIO! ![據幀] http://imgur.com/a/ftUZ5 我試圖做的是通過獨特的val_lvl2處理單獨數據幀。 下面是代碼,正是我想要做的,但規模更大。 功能代碼: remove_outliers <- function(x, na.rm = TRUE,

    -1熱度

    1回答

    我有一個不包含異常訓練數據集: train_vectors.shape (588649, 896) 而且,我有另一組測試向量(test_vectors),以及所有的人都異常值。 這是我在做異常檢測嘗試: from sklearn.ensemble import IsolationForest clf = IsolationForest(max_samples=0.01) clf.fit(

    1熱度

    1回答

    的整個數據集(基於Tukey和分類變量的每個級別)中替換異常值如何基於分類變量檢測所有數據集(所有連續列)的異常值並將其替換爲NA。我想使用Tukey技術,但是關注分類變量的每個級別。例如,根據mtcars$am 的每個級別,用NA替換mtcars[, -c(8,9)]的異常值或如何修改此代碼以適用於每個級別中的所有變量。 lapply(mtcars, function(x){sort(outli

    0熱度

    1回答

    我使用函數FastPCS檢測大型多元數據集中的異常值。當我從這個函數得到結果時,它們以$最好的形式出現,因爲數據來自於行號。如何獲取該行號並使用它來獲取原始數據框中該行中的數據? install.packages("FastPCS") library(FastPCS) u = FastPCS(ft[,2:11],alpha = .75) 英尺是一個大的多元數據框。

    3熱度

    1回答

    問題 我有在任何時間> 5個變量的組成一個數據幀,我試圖做的是K均值。由於K-Means很大程度上受到異常值的影響,因此我一直試圖尋找幾個小時來計算和刪除多變量異常值。大多數的例子都有兩個變量。 可能的解決方案探討的 mvoutlier - 這裏種類用戶注意的是,mvoutlier可能是我所需要的。 Another Outlier Detection Method - 此處的海報註釋了R函數的混合

    1熱度

    2回答

    我有以下問題: 我有一個數據幀,可以達到約600萬行。在該數據幀中的列的含有一定的ID。 ID NaN NaN D1 D1 D1 NaN D1 D1 NaN NaN NaN NaN D2 NaN D2 NaN NaN NaN NaN D3 NaN D3 NaN D3 NaN NaN 我想讓包含在ID之間的NaN與ID相同。因此,上面的DF應該

    0熱度

    1回答

    我有一些數據由一個NMEA GPS字符串加時間標記,我將其解碼以獲得單一數據點Year,Month,Day等。 問題是,在很少的情況下,GPS(可能是由於一些信號損失)變得不穩定,它吐出了非常非常錯誤的東西。這會在時間戳數據中產生尖峯,正如您可以從附圖中看到的那樣,它會繪製GPS輸出的天數向量。 正如你所看到的,GPS數據一般都很乖,和1 30/31每個月的天走在下月回落至1日前。但在某些時候,G