-1
文字=「我的狗是米飯吃」,「我想買一個新的」,「我的貓喜歡巧克力牛奶」如何不同類別下輸入文本分類
我怎麼能提取這些關鍵字文本(或文本語料庫)並將它們分爲不同的類別(即狗,貓歸類爲寵物和大米,巧克力牛奶歸類爲食物)
文字=「我的狗是米飯吃」,「我想買一個新的」,「我的貓喜歡巧克力牛奶」如何不同類別下輸入文本分類
我怎麼能提取這些關鍵字文本(或文本語料庫)並將它們分爲不同的類別(即狗,貓歸類爲寵物和大米,巧克力牛奶歸類爲食物)
您被拒絕投票,因爲該問題沒有提供足夠的細節你的意思是「分類」,因爲你沒有顯示你想達到的目標結果。
但是,下面是一個基本的答案:您可以創建一個字典並根據字典計算點擊次數。在quanteda,它的工作原理是這樣的:
text <- c("my dog is a rice eater",
"I want to buy an a new",
"my cat prefers chocolate milk")
library("quanteda")
fooddict <- dictionary(list(pet = c("cat", "dog"),
food = c("rice", "chocolate milk")))
dfm(text, dictionary = fooddict)
# Document-feature matrix of: 3 documents, 2 features (33.3% sparse).
# 3 x 2 sparse Matrix of class "dfmSparse"
# features
# docs pet food
# text1 1 1
# text2 0 0
# text3 1 1
,我使用Text2Vec [R&包使用 「movie_review」 數據的做法;在創建了大約80k字的詞彙後,我想將所有這些詞插入不同的類別;這種分類/分類可以基於概率或任何可產生更準確輸出的合適的過程 – mzhasan