我有一個高維詞 - 雙克頻率矩陣(1100 x 100658,dtype = int)。作爲列名,我使用行索引作爲行索引來設置word-bi-grams(如'','和',...),其中包含 myPandaDataFrame.columns = word-bi-grams 例如熟練度(高,中,低) myPandaDataFrame.columns.set_index([ 'PROFICIENCY'],就地=真,降=真)Sklearn和PCA。爲什麼是max n_row == max n_components?
然後我做
from sklearn.decomposition import PCA
x = 500
pcax = PCA(n_components=x)
pcax.fit(myPandaDataFrame)
PCA(copy=True, n_components=x, whiten=False)
existing_2dx = pcax.transform(myPandaDataFrame)
existing_df_2dx = pandas.DataFrame(existing_2dx)
existing_df_2dx.index = myPandaDataFrame.index
existing_df_2dx.columns = ['PC{0}'.format(i) for i in range(x)]
我的第一個問題,我認爲這是錯誤的,是我最多隻能設置1100個組件。這是現有行的數量。我對PCA非常陌生,並嘗試過幾個例子,但似乎我無法爲我的矩陣做出正確的選擇。 有人看到我在做什麼錯誤,或者有人可以鏈接到與我的問題類似的教程/示例。我會很開心:)
與問候
您可能可以在http://datascience.stackexchange.com/獲得更多幫助。 – Thanos
謝謝,我會盡力而爲。 – user6131832
做了任何答案的幫助? – Stefan