2015-06-02 57 views
-1

請問關於轉換數據集的問題。我有2個數據集,一個用於訓練,另一個用於測試。兩者都包含文本和句子中關於單詞的數字的混合特徵。例如(索引,標籤,pos,..等等)。將文本數據集轉換爲數字數據集

這是一個實例中的數據集(.csv格式)的一個例子:

1,點,6,1279,1284,點,NN,合流,NN,將,MD,地圖: :NNS the :: DT confluence :: NN,NNS_DT DT_NN NNS_DT_NN,would :: MD has :: VB to :: TO,MD_VB VB_TO MD_VB_TO,FALSE,FALSE,FALSE,NPe,PLACE

我想做什麼是使用Matlab中的神經網絡來訓練這些數據集,並從中提取深層特徵。問題是Matlab只處理數字數據集。另外,我在java中使用了一些分類器,他們只使用數字而不是文本。

任何人有一個建議,請問如何訓練這樣的數據集?或者如何將其轉換爲關於數字特徵的數字格式?

由於事先

回答

0

通過使用功能double()你會得到所有的相應代碼字母的排列鑄造變量。

例如double('MA1LAB')將輸出

ans = 

77 65 49 76 65 66 

然後,您可以處理與它對應的代碼每個字母。

請注意,每個字母得到一個代碼,所以1279將被處理爲4個字符。

+0

我不是在尋找這種類型的轉換。通過使用這種方法,我將失去文本的所有語義。例如「走」和「跑」都是動詞,但是通過轉換使用,它們將彼此遠離。 –