由於在quanteda中沒有準備好使用波蘭語停用詞,我想使用我自己的列表。我在一個文本文件中以空格分隔列表。如果需要,我還可以準備一個由新行分隔的列表。Quanteda:如何刪除我自己的單詞列表
如何從我的語料庫中刪除停用詞的自定義長列表? 干擾後我該怎麼做?
我試圖創建各種格式,轉換爲字符串矢量像
stopwordsPL <- as.character(readtext("polish.stopwords.txt",encoding = "UTF-8"))
stopwordsPL <- read.txt("polish.stopwords.txt",encoding = "UTF-8",stringsAsFactors = F))
stopwordsPL <- dictionary(stopwordsPL)
我還試圖在語法使用詞語的此類載體
myStemMat <-
dfm(
mycorpus,
remove = as.vector(stopwordsPL),
stem = FALSE,
remove_punct = TRUE,
ngrams=c(1,3)
)
dfm_trim(myStemMat, sparsity = stopwordsPL)
或
myStemMat <- dfm_remove(myStemMat,features = as.data.frame(stopwordsPL))
什麼都沒有我的停用詞出現在語料庫和分析中。應該使用自定義停用詞的正確方法/語法是什麼?
您能否提供示例數據? – jdb
當然:這裏有一切。 https://www.dropbox.com/s/vqasd32m8kmkfi5/text_data.zip?dl=0它只有五個文本和一個帶波蘭停用詞的文件。其餘的只是測試語法,如果它允許簡單的DM。 –