2017-08-22 20 views
-1

文字=「我的狗是米飯吃」,「我想買一個新的」,「我的貓喜歡巧克力牛奶」如何不同類別下輸入文本分類

我怎麼能提取這些關鍵字文本(或文本語料庫)並將它們分爲不同的類別(即狗,貓歸類爲寵物和大米,巧克力牛奶歸類爲食物)

回答

1

您被拒絕投票,因爲該問題沒有提供足夠的細節你的意思是「分類」,因爲你沒有顯示你想達到的目標結果。

但是,下面是一個基本的答案:您可以創建一個字典並根據字典計算點擊次數。在quanteda,它的工作原理是這樣的:

text <- c("my dog is a rice eater", 
      "I want to buy an a new", 
      "my cat prefers chocolate milk") 

library("quanteda") 

fooddict <- dictionary(list(pet = c("cat", "dog"), 
          food = c("rice", "chocolate milk"))) 

dfm(text, dictionary = fooddict) 
# Document-feature matrix of: 3 documents, 2 features (33.3% sparse). 
# 3 x 2 sparse Matrix of class "dfmSparse" 
#  features 
# docs pet food 
# text1 1 1 
# text2 0 0 
# text3 1 1 
+0

,我使用Text2Vec [R&包使用 「movie_review」 數據的做法;在創建了大約80k字的詞彙後,我想將所有這些詞插入不同的類別;這種分類/分類可以基於概率或任何可產生更準確輸出的合適的過程 – mzhasan