不太確定這是否是正確的地方。 但是,這是我的問題。 因此,對於數字性質的特徵,代表它們,繪製它們等是很自然的事情,但單詞?機器學習:代表單詞功能的好方法
你如何處理數據,你有文字作爲功能?所以我們可以說我有以下特點的數據集:
InventoryVal, Number of Units, Avg Price, Category of Event and so on..
- InventoryVal是單位的數量
- 數是
- 平均價格是事件的數量
- 分類是一個字這是由人類分配的。
事件如果我用id ......(比如說1)替換category(example)「books」,但那也是我已經分配的東西,這不是數據的固有內容。
什麼是一個很好的度量來表示一個產品屬於類別「藝術」而不需要人爲地分配任何東西? Eghh ..太模糊或措辭鬆散的問題?/
正好相反的頻率不一定是一個好方法。過濾掉「停用詞」(a,and等)的列表是另一種方法。 TF-IDF(http://en.wikipedia.org/wiki/Tf%E2%80%93idf)是另一種流行的方案,它將術語(單詞)的頻率除以單詞出現的數量*(idf = =逆文件頻率) – phs 2011-12-16 02:18:04