我有以下列表規模矩陣/星火
id1, column_index1, value1
id2, column_index2, value2
...
我轉變爲一個索引行矩陣執行以下操作:
val data_mapped = data.map({ case (id, col, score) => (id, (col, score))})
val data_mapped_grouped = data_mapped.groupByKey
val indexed_rows = data_mapped_grouped.map({ case (id, vals) => IndexedRow(id, Vectors.sparse(nCols.value, vals.toSeq))})
val mat = new IndexedRowMatrix(indexed_rows)
我想執行這個矩陣一些預處理:從每列中刪除列的總和,通過其差異來標準化每列。 我曾嘗試使用內置的標準定標器
val scaler = new StandardScaler().fit(indexed_rows.map(x => x.features))
,但這似乎並沒有
感謝您的幫助,有可能與IndexedRow型!
你得到的錯誤是什麼? – eliasah
它只是不是IndexedRow類型的成員。我不一定希望使用內置函數。 – fricadelle
我知道這不是,但我很難理解你想做什麼。爲什麼你會使用IndexedRow,如果你只需要它的功能(Vector) – eliasah