2017-07-25 77 views
0

我想對某些財務數據使用scikit的因子分析來找到在模型中使用的beta。 FA有一個稱爲n_components和tolerance的參數。我在圍繞這些變量如何影響結果方面遇到了一些麻煩。我已閱讀文檔並完成了研究,但無法找到任何相關信息。我是機器學習的新手,而不是數據統計嚮導。有人可以解釋這些影響算法的結果嗎?因子分析Scikit

回答

0

sklearn.decomposition.FactorAnalysis

n_components:INT |無

潛在空間的維度,變換後獲得的X的組件數量。如果爲None,則n_components設置爲功能的數量。

tol:float EM算法的停止容差。

我假設你的財務數據是一個帶有(n_samples, n_features)形狀的矩陣。因子分析使用期望最大化(EM)優化器來找到能夠在n_tolerance的公差範圍內準確建模數據的最佳高斯分佈。簡單來說,n_components是高斯分佈的維數。

可以使用高斯分佈建模的數據有時在一個維度上可以忽略不計。想象一個沿其深度壓扁的橢圓體,使其類似橢圓。如果原始數據是橢圓體,那麼您需要使用n_components = 2,以便您可以用最簡單的模型對數據建模。