我使用quanteda建設兩個文件特徵矩陣: library(quanteda)
DFM1 <- dfm("this is a rock")
# features
# docs this is a rock
# text1 1 1 1 1
DFM2 <- dfm("this is music")
# features
# docs this is music
# text1 1
可以說一個叫做textstat_frequency{package:quanteda} 的函數爲我們提供了以下數據幀。 data.frame(xx=1:4,yy=5:8,foo=c("A","A","B","C"),stringsAsFactors=FALSE)
xx yy foo
1 1 5 A
2 2 6 A
3 3 7 B
4 4 8 C
什麼是塑造根據矢量 c("B"
我使用Ken Benoit和Paul Nulty的quanteda軟件包處理文本數據。 我的語料庫包含帶有完整德語句子的文本,我只想處理每個文本的名詞。德語中的一個竅門是僅使用大寫字母,但這在句子的開頭就會失敗。 Text1 <- c("Halle an der Saale ist die grünste Stadt Deutschlands")
Text2 <- c("In Hamburg r
我正嘗試將使用tm的腳本遷移到量子。閱讀量子文檔有一個關於應用「下游」變化的原理,以便原始語料庫不變。好。 我以前寫過一個腳本來查找我們的tm語料庫中的拼寫錯誤,並得到了我們團隊的支持以創建手動查找。所以,我有一個包含2列的csv文件,第一列是拼寫錯誤術語,第二列是該術語的正確版本。 利用TM包之前我這樣做: # Write a custom function to pass to tm_map
我有一個大的1M文檔語料庫工作,並已申請了幾次改變從創建它的文檔頻率矩陣時: library(quanteda)
corpus_dfm <- dfm(tokens(corpus1M), # where corpus1M is already a corpus via quanteda::corpus()
remove = stopwords("english"),