tm

    0熱度

    1回答

    我從公開的審閱數據創建相關的主題模型並獲取相當奇怪的錯誤。 當我在我的CTM上調用術語(ctm1,5)時,我找回了文檔的名稱,而不是每個主題的前5個術語。 更詳細我跑, library(topicmodels) library(data.table) library(tm) a <-Corpus(DirSource("~/text", encoding="UTF-8"), readerCo

    0熱度

    1回答

    我想從tm包中使用Zipf_plot函數來比較兩個不同的文檔術語矩陣 - 並且我不是R專家.. 也許你可以告訴我,如果有一種方法可以適用於這個功能? Zipf_plot(x, type = "l", ...) 我知道,有可能在一個窗口,從中獲取兩個(或更多): par(mfrow=c()) ,但我會很感激,在一個圖中,兩個或更多的DTM的解決方案。 在此先感謝! :-)

    0熱度

    1回答

    我的工作進展得順利的時候,但我遇到由於一些含有怪異的符號我的PDF文件的問題(「DY「§」) 我審查了更早的討論,但沒有這些解決方案的工作: R tm package invalid input in 'utf8towcs' 這是到目前爲止我的代碼: setwd("E:/OneDrive/Thesis/Received comments document/Consultation 50") ge

    -1熱度

    1回答

    如何在R中詞幹完成後完成單詞? x <- c("completed","complete","completion","teach","taught") tm <- Corpus(VectorSource(x)) tm <- tm_map(tm, stemDocument) inspect(tm) 舉例說明目的,因爲實際的文本語料庫要大得多。 我以前搜索過examples,它指向創建一組

    0熱度

    2回答

    這是我第一次進行twitter分析。 #Search data from Twitter library("twitteR") SearchData = searchTwitter("Bruno Mars", n=1000,lang = 'en') SearchData #Scrapping Data userTimeline("BrunoMars", n=100, maxID =NU

    0熱度

    2回答

    我試圖安裝軟件包「tm」並得到一個錯誤(見下文)。從這個錯誤,我看不出有什麼問題。包Rcpp已安裝。使用R 3.4.0,Xubuntu 64. 如何安裝軟件包tm? * installing *source* package ‘tm’ ... ** package ‘tm’ successfully unpacked and MD5 sums checked ** libs g++ -I/u

    3熱度

    2回答

    我使用tm和wordcloud在R中執行一些基本的文本挖掘。正在處理的文本包含很多無意義的單詞,如asfdg,aawptkr,我需要過濾這些單詞。 我找到的最接近的解決方案是使用library(qdapDictionaries)並構建自定義函數來檢查單詞的有效性。 library(qdapDictionaries) is.word <- function(x) x %in% GradyAugme

    0熱度

    1回答

    我有一個列表,我試圖通過添加在一起的n個文檔,以便它們形成一個單獨的VCorpus。通常情況下,您可以使用c()運算符並加入兩個VCorpus來創建一個更大的運算符。但是,如果我按照下面的方法首先初始化列表,則會將語料庫轉換爲字符列表。但如果我不初始化它,我會收到一個錯誤。 clean_corpus <- c() for (i in directory_source$filelist)

    0熱度

    1回答

    我正在使用tm包在R中進行文本情感分析。我已經從路透社刮來了新聞文章,並根據他們的日期給他們一個變量名稱。我加了一個,B,C等來表示每天多篇文章,像這樣: art170411a art170411b art170411c art170410a ... ... 我然後運行一個標準的正面/負面條款分析,它給了我每篇文章的情感分數。我的問題是:我如何平均這些分數,以便每天得到情緒分數? 我有一個VCor

    0熱度

    1回答

    我的任務是將一個語料庫中的文檔與餘弦相似度進行比較。我使用tm包並獲取TermDocumentMatrix(以td-idf形式)tdm。下面的任務應該是簡單的here d <- dist(tdm, method="cosine") 或 cosine_dist_mat <- 1 - crossprod_simple_triplet_matrix(tdm)/(sqrt(col_sums(tdm^2