我有一個數據框data
包含真實值和一些NaN值。我正在嘗試使用隨機投影來執行局部敏感哈希以將維度減少到25個組件,特別是類別sklearn.random_projection.GaussianRandomProjection
。然而,當我運行:使用包含NaN值的數據幀的Python熊貓的隨機投影
tx = random_projection.GaussianRandomProjection(n_components = 25) data25 = tx.fit_transform(data)
我得到Input contains NaN, infinity or a value too large for dtype('float64')
。有沒有解決這個問題的方法?我嘗試將所有NaN值更改爲從未出現在我的數據集中的值,例如-1。我的輸出在這種情況下有多有效?我不是局部敏感哈希/隨機投影理論背後的專家,所以任何見解都會有幫助。謝謝。