term-document-matrix

    1熱度

    1回答

    我想分析一個大的(n = 500,000)文檔語料庫。我使用quanteda期望will be faster比tm_map()從tm。我想要一步一步地執行,而不是使用dfm()的自動方式。我有這樣的理由:在一種情況下,我不想在移除停用詞之前進行標記化,因爲這會導致許多無用的bigrams,在另一種情況下,我必須使用特定於語言的過程預處理文本。 謹以此順序實施: 1)刪除標點和數字 2),即標記化之

    1熱度

    2回答

    我有一個術語文檔矩陣。我希望對它進行子集化並只保留出現超過特定次數的那些項,即行總和應該大於特定的數字。任何快速的方法來實現這一點? B.T.W,矩陣很大。

    1熱度

    1回答

    我在R中使用了TermDocument Matrix,文檔(字符串)也包含單個字母的單詞。使用TermDocument矩陣後,術語不包括那些單字母的單詞,請建議其控制我應包括以包括我的任期文檔中的單個字母詞的輸入參數matrix.`

    1熱度

    1回答

    我在一個與R的項目,我開始弄髒我的手。 在第一部分我嘗試清除向量味精的數據。但後來當我構建termdocumentmatrix時,這些字符仍然出現。 我想少於4個字母去掉的話,並刪除標點符號 gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg) gsub("[[:punct:]]", "", pclbyshares$msg) corpus <- Corpu

    0熱度

    1回答

    我試圖創建一個矩陣, 爲此,我使用該R指令: matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, stemWords=TRUE) 這裏將R代碼: library(RTextTool

    1熱度

    2回答

    我在R中使用csv文件做了wordcloud。我在tm包中使用了TermDocumentMatrix方法。這裏是我的代碼: csvData <- read.csv("word", encoding = "UTF-8", stringsAsFactors = FALSE) Encoding(csvData$content) <- "UTF-8" # useSejongDic() - KoNLP

    2熱度

    1回答

    我知道術語文檔矩陣是一個數學矩陣,它描述文檔集合中出現的術語的頻率。在文檔術語矩陣中,行對應於集合中的文檔,列對應於術語。 我正在使用sklearn的CountVectorizer從字符串(文本文件)中提取功能以簡化我的任務。下面的代碼根據sklearn_documentation from sklearn.feature_extraction.text import CountVectorize

    0熱度

    1回答

    我正在處理一些推文並使用文本挖掘技術。 我用下面的命令,由於字體太小,圖不可讀。我該如何解決它? plot(tdm, term = freq.terms, corThreshold = 0.95, ps=30)

    1熱度

    1回答

    我是R的新手,我試圖用csv文件創建術語文檔矩陣。但結果表明,一些單詞最後缺少字母「e」。我怎樣才能讓術語文檔矩陣顯示完整的單詞?如果您在看到一個看起來不正確的部分時也可以告訴我,那將會很棒。謝謝! library(tm) posts<-read.csv("/abcd.csv",header=TRUE) require(tm) posts<-Corpus(VectorSource(posts

    0熱度

    1回答

    這裏是我的代碼: 例子1: a <- c("ab cd de","ENERGIZER A23 12V ALKALINE BATTERi") a1 <- VCorpus(VectorSource(a)) a2 <- TermDocumentMatrix(a1,control = list(stemming=T)) inspect(a2) 結果是: Docs Terms 1 2