我想對包含子特徵的數據集進行一些特徵提取(或聚類)。例如,數據集如下所示。目標是使用數據對機器人的類型進行分類。針對多個子特徵的特徵提取
Samples : 100 robot samples [Robot 1, Robot 2, ..., Robot 100]
Classes : 2 types [Type A, Type B]
Variables : 6 parts, and 3 sub-features for each parts (total 18 variables)
[Part1_weight, Part1_size, Part1_strength, ..., Part6_size, Part6_strength, Part6_weight]
欲進行與[重量,尺寸,強度],和使用提取的特徵作爲用於部分的代表值的特徵提取。
總之,我的目標是將特徵減少到6 - [Part1_total,Part2_total,...,Part6_total] - 然後,用這6個特徵對機器人類型進行分類。因此,與「重量」,「尺寸」和「強度」相結合的特點是需要解決的問題。
首先我想申請PCA(主成分分析),因爲它是最流行的特徵提取算法之一。但它將所有18個特徵分開考慮,因此'Part1_weight'可以被認爲比'Part2_weight'更重要。但是我必須知道樣本中「權重」,「大小」和「強度」的重要性,因此PCA似乎不適用。
有沒有解決這個問題的方法?
謝謝您的建議。然而,單獨執行PCA很容易(即,PCA到Part1_size,Part1_strength,Part1_weight爲Part1提取特徵,爲Part2提取PCA到Part2_size,Part2_strength等),但似乎很難計算常見PCA每個子功能(即PCA到通用Parts_size,Parts_strength,Parts_weight用於每個部件的特徵提取)。你有什麼想法嗎? – z991
我不明白問題的第二個(困難)部分。你是否想將尺寸,重量和力量結合到一個功能中?在這種情況下,由於它們是以不同的單位和不同的尺度衡量的,所以你必須對它們進行標準化。 –
對不起,我有點困惑,但現在我明白了。謝謝您的回答。 – z991