2014-02-11 47 views
4

我在Encog Framework中看到的示例描述瞭如何將數字數據分類爲文本數據。例如,下面是用於經典的虹膜數據集中的數據:Encog Framework非數字示例,文本分類

"sepal_l","sepal_w","petal_l","petal_w","species" 
5.1,3.5,1.4,0.2,Iris-setosa 
4.9,3.0,1.4,0.2,Iris-setosa 
4.7,3.2,1.3,0.2,Iris-setosa 
4.6,3.1,1.5,0.2,Iris-setosa 
5.0,3.6,1.4,0.2,Iris-setosa 
5.4,3.9,1.7,0.4,Iris-setosa 

是否有一個如何規範,並通過Encog使用的文字,比如任何簡單的例子,這樣的數據(?):

"subject","body","Spam" 
"This is the subject","This is the body",1 
"This message is not spam","Lorem ipsum dolor",0 
etc... 
+1

http://ijcsi.org/papers/IJCSI-10-2-1-17-21.pdf分類器處理數字數據。有很多方法,比如上面提到的從文本中選擇特徵的方法,但它們都是詳細的算法,並不存在我所知道的簡單方法。 – Steve

+2

感謝您的鏈接。我已經知道如何在Python中執行此操作,但是有一些sklearn和其他包可以方便地將文本轉換爲數字並清除停用詞和其他有用的事情。我想知道,具體來說,** Encog Framework **是否有這樣的支持,如果我必須自定義編程它。 – user1477388

回答

1

Encog目前不提供任何更高級別的純文本編碼抽象。 Encog神經元的輸入只是根據權重矩陣計算的數值。 Encog可以編碼分類文本值。