機器學習：代表單詞功能的好方法

不太確定這是否是正確的地方。但是，這是我的問題。因此，對於數字性質的特徵，代表它們，繪製它們等是很自然的事情，但單詞？機器學習：代表單詞功能的好方法

你如何處理數據，你有文字作爲功能？所以我們可以說我有以下特點的數據集：

InventoryVal, Number of Units, Avg Price, Category of Event and so on..

InventoryVal是單位的數量
數是
平均價格是事件的數量
分類是一個字這是由人類分配的。

事件如果我用id ......（比如說1）替換category（example）「books」，但那也是我已經分配的東西，這不是數據的固有內容。

什麼是一個很好的度量來表示一個產品屬於類別「藝術」而不需要人爲地分配任何東西？ Eghh ..太模糊或措辭鬆散的問題？/

來源

2011-12-16 Fraz

因此，正如你可能已經猜到有整個ML庫針對這個問題，但如果你只是想開始，最簡單的（也許是最常見的）是字頻。換句話說，您將每個單詞表示爲一個功能，其值是每個文檔中單詞出現次數的函數。

但最常見的詞（a和，這等）是最常見的（在普通文本文件（例如，電子郵件消息）中，但幾乎不是最重要的，所以它是常見的表達一個詞特徵爲它的倒數就是頻率

如此反覆，這是最簡單的方法（袋的話的是它是如何通常簡稱）;更爲複雜的分析（這並不總是需要）預先處理單個單詞以將它們分類爲例如詞性部分分析。

如果你喜歡python，我推薦NLTK（自然語言工具包）是一個成熟的，有詳細記錄的python庫。有很多「入門」教程，但也許從NLTK貢獻者創建的那些開始，並在NLTK主頁上引用;這些tutorials通常依賴於包含在基本NLTK安裝中的語料庫（數據集）。

來源

2011-12-16 01:43:36 doug

正好相反的頻率不一定是一個好方法。過濾掉「停用詞」（a，and等）的列表是另一種方法。 TF-IDF（http://en.wikipedia.org/wiki/Tf%E2%80%93idf）是另一種流行的方案，它將術語（單詞）的頻率除以單詞出現的數量*（idf = =逆文件頻率） – phs 2011-12-16 02:18:04

如果您正在使用現有的機器學習軟件包或打包的機器學習算法，可能有辦法告訴它特定的字段包含例如要被視爲標識符的整數，其中只有平等和不平等的比較纔有意義。如果不是，如果只有少量不同的類別，則用10個二進制字段替換具有10個值的類別字段可能是有意義的，如果對象在特定類別中則保持1，如果不是0則保持爲0（或9個字段，如果它們都是0，則該對象在第10類中）。

來源

2011-12-16 05:39:18 mcdowella

機器學習：代表單詞功能的好方法

回答

相關問題