pca

    0熱度

    1回答

    我有一個非常大的數據集(numpy數組),我爲了降維而做了PCA。數據集稱爲train_data。我用scikit學習和做類似這樣的 pca = PCA(n_components=1000, svd_solver='randomized') pca.fit() smaller_data = pca.transform(train_data) 我有第二個數據集被稱爲test_data,我想使

    0熱度

    1回答

    我想PCA應用於kaggle的泰坦尼克號dataset 現在我只是把具有數值列和丟棄NaN值,所以我有五個變量,實際上四個,如果我們忽略依賴變量('生存')。 我有這個加載到數據幀DF,如果我使用了PCA五個部分: pca_model = PCA(n_components=5) pca_model.fit(df) pca_model.explained_variance_ratio_ [

    1熱度

    1回答

    我想要它的數學證明。有沒有人知道它的一篇論文。或者可以鍛鍊數學?

    0熱度

    1回答

    我正在使用PCA進行數據分析,我用PySpark編寫了這段代碼,它完美地工作,但它只適用於從csv文件中讀取的數據,只有5列[「a」 「b」,「c」,「d」,「e」],我想寫一個通用代碼來計算從csv文件讀取的任意數量的列的PCA。我應該添加什麼? 這裏是我的代碼: #########################! importing libraries !##################

    0熱度

    1回答

    我對數據框執行主成分分析以減少線性迴歸分析中的預測因子數。 pr.out = prcomp(df, scale=TRUE) pr.var = pr.out$sdev^2 pve = pr.var/sum(pr.var) 這樣做後,我想用我的數據框中的舊變量替換前幾個主成分來解釋最大變異比例。但是,對於我而言,我無法找到每個主成分的觀察向量(即每個數據點的PC1得分)。你知道我可以如何訪問它

    2熱度

    1回答

    我有一個數據框(按品種矩陣網站),看起來像這樣: SP1 SP2 SP3 SP4 US 5 6 2 5 US 5 6 2 5 UK 5 6 2 5 AUS 5 6 2 5 我試圖創建後交通動脈圖(主座標分析)的95%置信多邊形/橢圓。我需要爲每個國家(點)唯一地加上顏色代碼,以及每個具有國家和圖例對應顏色代碼的橢

    0熱度

    1回答

    我想要得到特徵向量來做pca(主成分分析)。該包,DimensionalityReduction.jl提供了一個命令,應該做這件事情,pcaeig(X)其中X是一些矩陣。我的代碼如下 使用DataFrames 使用DimensionalityReduction 數據= readtable( 「中期Data.csv」) T =大小(數據)[1] Ñ = size(data)[2] erates =

    3熱度

    2回答

    我正在使用PySpark的csv文件處理PCA。我有一些奇怪的行爲;我的代碼,有時工作完美,但有時會返回此錯誤: File "C:/spark/spark-2.1.0-bin-hadoop2.7/bin/pca_final2.py", line 25, in <module> columns = (fileObj.first()).split(';') File "C:\spark\spark

    1熱度

    1回答

    我正試圖降低使用PCA的訓練集的維數。 我遇到過兩種方法。 [V,U,eigen]=pca(train_x); eigen_sum=0; for lamda=1:length(eigen) eigen_sum=eigen_sum+eigen(lamda,1); if(eigen_sum/sum(eigen)>=0.90) break; end

    0熱度

    1回答

    我是預處理神經網絡的輸入數據。 爲了減少輸入的維數,我正在運行PCA。 我想正常化我的數據,我應該在運行PCA之前還是之後執行? 即在原始數據/ PCA輸入上還是在PCA輸出/ NN輸入上?