-1
我的詞彙數據是這樣的:詞彙組匹配文本
C#
C++
Windows 7
Windows Azure
Programming
Programming C
我想它們分成多個大類。是否有任何選項可以將軟件工程術語匹配到R中更抽象的組?
實施例的地方:
C++
C#
Programming C
他們列表至C
與窗口一樣。
我的詞彙數據是這樣的:詞彙組匹配文本
C#
C++
Windows 7
Windows Azure
Programming
Programming C
我想它們分成多個大類。是否有任何選項可以將軟件工程術語匹配到R中更抽象的組?
實施例的地方:
C++
C#
Programming C
他們列表至C
與窗口一樣。
這裏有一個方法使用一些GitHub包我維護...但你需要調整它是更普遍的。
dat <- readLines(n = 6)
C#
C++
Windows 7
Windows Azure
Programming
Programming C
if (!require("pacman")) install.packages("pacman")
pacman::p_load_gh(
"trinker/textshape",
"trinker/gofastr",
"trinker/termco",
"trinker/hclustext"
)
ds <- data_store(gsub("[^[:alpha:] ]", " ", dat), stopwords = c("programming", "program"))
myfit <- hierarchical_cluster(ds)
plot(myfit, 2)
ca <- assign_cluster(myfit, k = 2)
split(dat[as.numeric(names(ca))], ca)
## $`1`
## [1] "C#" "C++" "Programming C"
##
## $`2`
## [1] "Windows 7" "Windows Azure"