嘗試向量化我的要素時遇到了一個棘手的問題。我有這樣一個特點:數據矢量化
- 大部分是數字,如0,1,33.3,100等
- 一些的是空的,這表示未設置。
- 其中一些是「自動」,這意味着它適應上下文。
現在我的問題是,如何將這個特徵有效地編碼成矢量?我可以做的一件事就是將所有數值都視爲分類,但這會導致特徵空間的爆炸,也不利於表示類似的數據點。我該怎麼辦?
謝謝!
---算法/模式,我正在使用---
這是LSTM(長短期記憶)神經網絡。目前,我用下面的方法去說,我有2個數據點: col1 entry1: 1.0 entry2: auto
它會被編碼成: col1-a col1-b entry1: 1.0 0 entry2: dummy 1
所以COL1-B將代表無論是自動還是不行。虛擬數字將是所有數字數據的中位數。這會工作嗎?
此外,我對於每個數值都有一個關聯的單位,所以還有另一個欄的值爲'px','pt',在這種情況下,如果我將單位提取到另一列?它們在關聯時具有實際意義(數字+單元),但是NN可以注意到,如果它們處於不同的維度上?
非常感謝泰勒!我編輯了這個問題,並詢問了像'11px','12pt'這樣的矢量化。這現在更有意義了嗎? – MrW
@MrW看我的編輯。 –
非常感謝泰勒! – MrW