0
在火花正式文件,VectorSlicer如何在Spark 2.0中工作?
VectorSlicer是變壓器,需要一個特徵矢量,並輸出與原來的特徵的子陣列的新的特徵向量。它對從矢量列中提取特徵非常有用。
這是否從一組功能的重要特點是什麼?
如果是這種情況,如何不提及因變量?
我正在嘗試執行數據集羣,我需要重要的功能,這將有助於更好的集羣。我可以使用VectorSlicer
嗎?
在火花正式文件,VectorSlicer如何在Spark 2.0中工作?
VectorSlicer是變壓器,需要一個特徵矢量,並輸出與原來的特徵的子陣列的新的特徵向量。它對從矢量列中提取特徵非常有用。
這是否從一組功能的重要特點是什麼?
如果是這種情況,如何不提及因變量?
我正在嘗試執行數據集羣,我需要重要的功能,這將有助於更好的集羣。我可以使用VectorSlicer
嗎?
這是否從該組功能中選擇重要功能?
它沒有。它從字面上切分矢量以僅選擇指定的索引。
並需要重要的功能,這將有助於更好的羣集。
如果你有明確的數據可以考慮使用ChiSqSelector。
否則,您可以使用降維如PCA。它不會和特徵選擇一樣,但應該提供類似的好處(只保留最重要的信號,丟棄其他信號)。
我已經表決了你的答案,但如果你可以請解釋你的第二點在降低功能重要性的選擇。我不確定OP會得到那一點(也適用於其他讀者) – eliasah
@eliasah根據要求進行編輯。 – user7337271