請問關於轉換數據集的問題。我有2個數據集,一個用於訓練,另一個用於測試。兩者都包含文本和句子中關於單詞的數字的混合特徵。例如(索引,標籤,pos,..等等)。將文本數據集轉換爲數字數據集
這是一個實例中的數據集(.csv格式)的一個例子:
1,點,6,1279,1284,點,NN,合流,NN,將,MD,地圖: :NNS the :: DT confluence :: NN,NNS_DT DT_NN NNS_DT_NN,would :: MD has :: VB to :: TO,MD_VB VB_TO MD_VB_TO,FALSE,FALSE,FALSE,NPe,PLACE
我想做什麼是使用Matlab中的神經網絡來訓練這些數據集,並從中提取深層特徵。問題是Matlab只處理數字數據集。另外,我在java中使用了一些分類器,他們只使用數字而不是文本。
任何人有一個建議,請問如何訓練這樣的數據集?或者如何將其轉換爲關於數字特徵的數字格式?
由於事先
我不是在尋找這種類型的轉換。通過使用這種方法,我將失去文本的所有語義。例如「走」和「跑」都是動詞,但是通過轉換使用,它們將彼此遠離。 –