tm - 優文庫

tm

0熱度

1回答

我從公開的審閱數據創建相關的主題模型並獲取相當奇怪的錯誤。當我在我的CTM上調用術語（ctm1，5）時，我找回了文檔的名稱，而不是每個主題的前5個術語。更詳細我跑， library(topicmodels) library(data.table) library(tm) a <-Corpus(DirSource("~/text", encoding="UTF-8"), readerCo

0熱度

1回答

Zipf_plot（）：如何比較一個圖中的兩個對象？

我想從tm包中使用Zipf_plot函數來比較兩個不同的文檔術語矩陣 - 並且我不是R專家.. 也許你可以告訴我，如果有一種方法可以適用於這個功能？ Zipf_plot(x, type = "l", ...) 我知道，有可能在一個窗口，從中獲取兩個（或更多）： par(mfrow=c()) ，但我會很感激，在一個圖中，兩個或更多的DTM的解決方案。在此先感謝！ :-)

0熱度

1回答

輸入無效「DY「§‘在’utf8towcs使用TM和pdftools

我的工作進展得順利的時候，但我遇到由於一些含有怪異的符號我的PDF文件的問題（「DY「§」）我審查了更早的討論，但沒有這些解決方案的工作： R tm package invalid input in 'utf8towcs' 這是到目前爲止我的代碼： setwd("E:/OneDrive/Thesis/Received comments document/Consultation 50") ge

-1熱度

1回答

r文本分析詞幹完成

如何在R中詞幹完成後完成單詞？ x <- c("completed","complete","completion","teach","taught") tm <- Corpus(VectorSource(x)) tm <- tm_map(tm, stemDocument) inspect(tm) 舉例說明目的，因爲實際的文本語料庫要大得多。我以前搜索過examples，它指向創建一組

0熱度

2回答

tm_map在R中出現錯誤

這是我第一次進行twitter分析。 #Search data from Twitter library("twitteR") SearchData = searchTwitter("Bruno Mars", n=1000,lang = 'en') SearchData #Scrapping Data userTimeline("BrunoMars", n=100, maxID =NU

0熱度

2回答

安裝包「tm」失敗

我試圖安裝軟件包「tm」並得到一個錯誤（見下文）。從這個錯誤，我看不出有什麼問題。包Rcpp已安裝。使用R 3.4.0，Xubuntu 64. 如何安裝軟件包tm？ * installing *source* package ‘tm’ ... ** package ‘tm’ successfully unpacked and MD5 sums checked ** libs g++ -I/u

3熱度

2回答

從R中的語料庫中刪除無意義的單詞

我使用tm和wordcloud在R中執行一些基本的文本挖掘。正在處理的文本包含很多無意義的單詞，如asfdg，aawptkr，我需要過濾這些單詞。我找到的最接近的解決方案是使用library(qdapDictionaries)並構建自定義函數來檢查單詞的有效性。 library(qdapDictionaries) is.word <- function(x) x %in% GradyAugme

0熱度

1回答

如何在保留R類型的同時迭代地添加到一個語料庫列表？

我有一個列表，我試圖通過添加在一起的n個文檔，以便它們形成一個單獨的VCorpus。通常情況下，您可以使用c()運算符並加入兩個VCorpus來創建一個更大的運算符。但是，如果我按照下面的方法首先初始化列表，則會將語料庫轉換爲字符列表。但如果我不初始化它，我會收到一個錯誤。 clean_corpus <- c() for (i in directory_source$filelist)

0熱度

1回答

如何使用多個文本平均一天的情緒分數？

我正在使用tm包在R中進行文本情感分析。我已經從路透社刮來了新聞文章，並根據他們的日期給他們一個變量名稱。我加了一個，B，C等來表示每天多篇文章，像這樣： art170411a art170411b art170411c art170410a ... ... 我然後運行一個標準的正面/負面條款分析，它給了我每篇文章的情感分數。我的問題是：我如何平均這些分數，以便每天得到情緒分數？我有一個VCor

0熱度

1回答

計算T中TermDocumentMatrix中兩個文檔之間的餘弦相似度R中的包裝

我的任務是將一個語料庫中的文檔與餘弦相似度進行比較。我使用tm包並獲取TermDocumentMatrix（以td-idf形式）tdm。下面的任務應該是簡單的here d <- dist(tdm, method="cosine") 或 cosine_dist_mat <- 1 - crossprod_simple_triplet_matrix(tdm)/(sqrt(col_sums(tdm^2