2011-12-16 89 views
1

不太確定這是否是正確的地方。 但是,這是我的問題。 因此,對於數字性質的特徵,代表它們,繪製它們等是很自然的事情,但單詞機器學習:代表單詞功能的好方法

你如何處理數據,你有文字作爲功能?所以我們可以說我有以下特點的數據集:

InventoryVal, Number of Units, Avg Price, Category of Event and so on.. 
  • InventoryVal是單位的數量
  • 數是
  • 平均價格是事件的數量
  • 分類是一個字這是由人類分配的。

事件如果我用id ......(比如說1)替換category(example)「books」,但那也是我已經分配的東西,這不是數據的固有內容。

什麼是一個很好的度量來表示一個產品屬於類別「藝術」而不需要人爲地分配任何東西? Eghh ..太模糊或措辭鬆散的問題?/

回答

0

因此,正如你可能已經猜到有整個ML庫針對這個問題,但如果你只是想開始,最簡單的(也許是最常見的)是字頻。換句話說,您將每個單詞表示爲一個功能,其值是每個文檔中單詞出現次數的函數。

但最常見的詞(a和,這等)是最常見的(在普通文本文件(例如,電子郵件消息)中,但幾乎不是最重要的,所以它是常見的表達一個詞特徵爲它的倒數就是頻率

如此反覆,這是最簡單的方法(袋的話的是它是如何通常簡稱);更爲複雜的分析(這並不總是需要)預先處理單個單詞以將它們分類爲例如詞性部分分析。

如果你喜歡python,我推薦NLTK(自然語言工具包)是一個成熟的,有詳細記錄的python庫。有很多「入門」教程,但也許從NLTK貢獻者創建的那些開始,並在NLTK主頁上引用;這些tutorials通常依賴於包含在基本NLTK安裝中的語料庫(數據集)。

+2

正好相反的頻率不一定是一個好方法。過濾掉「停用詞」(a,and等)的列表是另一種方法。 TF-IDF(http://en.wikipedia.org/wiki/Tf%E2%80%93idf)是另一種流行的方案,它將術語(單詞)的頻率除以單詞出現的數量*(idf = =逆文件頻率) – phs 2011-12-16 02:18:04

0

如果您正在使用現有的機器學習軟件包或打包的機器學習算法,可能有辦法告訴它特定的字段包含例如要被視爲標識符的整數,其中只有平等和不平等的比較纔有意義。如果不是,如果只有少量不同的類別,則用10個二進制字段替換具有10個值的類別字段可能是有意義的,如果對象在特定類別中則保持1,如果不是0則保持爲0(或9個字段,如果它們都是0,則該對象在第10類中)。