2017-01-08 79 views
0

在火花正式文件,VectorSlicer如何在Spark 2.0中工作?

VectorSlicer是變壓器,需要一個特徵矢量,並輸出與原來的特徵的子陣列的新的特徵向量。它對從矢量列中提取特徵非常有用。

  • 這是否從一組功能的重要特點是什麼?

  • 如果是這種情況,如何不提及因變量?

我正在嘗試執行數據集羣,我需要重要的功能,這將有助於更好的集羣。我可以使用VectorSlicer嗎?

回答

2

這是否從該組功能中選擇重要功能?

它沒有。它從字面上切分矢量以僅選擇指定的索引。

並需要重要的功能,這將有助於更好的羣集。

  • 如果你有明確的數據可以考慮使用ChiSqSelector

  • 否則,您可以使用降維如PCA。它不會和特徵選擇一樣,但應該提供類似的好處(只保留最重要的信號,丟棄其他信號)。

+2

我已經表決了你的答案,但如果你可以請解釋你的第二點在降低功能重要性的選擇。我不確定OP會得到那一點(也適用於其他讀者) – eliasah

+0

@eliasah根據要求進行編輯。 – user7337271

相關問題