0
的火花VectorAssembler
http://spark.apache.org/docs/latest/ml-features.html#vectorassembler產生以下輸出火花管道矢量彙編下降等欄目
id | hour | mobile | userFeatures | clicked | features
----|------|--------|------------------|---------|-----------------------------
0 | 18 | 1.0 | [0.0, 10.0, 0.5] | 1.0 | [18.0, 1.0, 0.0, 10.0, 0.5]
,你可以看到最後一欄包含了所有以前的功能。如果其他列被移除,它是更好還是更高效?只有標籤/ ID和功能被保留,或者這是一個不必要的開銷,只需將標籤/ ID和功能添加到估算器就足夠了?
當VectorAssembler
在流水線中使用時會發生什麼?如果原始列未被手動刪除,只會使用最後一個要素,否則會引入共線性(重複列)?
請解釋爲什麼downvote。 –