tm - 優文庫

tm

0熱度

2回答

當我使用TM時，我試圖用inspect（）顯示TermDocumentMatrix，結果並不是所有的矩陣，只是它的一部分。我真的很困惑。這是我的TDM的結果： > tdm <<TermDocumentMatrix (terms: 84, documents: 1)>> Non-/sparse entries: 84/0 Sparsity : 0% Maximal term leng

3熱度

1回答

在R中使用DocumentTermMatrix和'dictionary'參數

我想使用R來進行文本分類。我用DocumentTermMatrix返回字的矩陣： library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm) words <-

1熱度

1回答

R：wordcloud軟件包忽略語料庫中三個字符以下的單詞

使用wordcloud軟件包創建wordcloud時，似乎軟件包默認忽略三個字符以下的單詞（如「tv」）。我認爲這是一個功能，而不是一個bug，但我仍然無法找到調整最小字符數的參數。的wordcloud抵抗（）創建，並與該語料庫（）和tm_map預處理詞語從TM包功能的語料庫運行。我已經證實，有問題的單詞沒有在例如刪除停用詞 - 它們仍處於運行wordcloud（）函數的最終語料庫中。重複的例

0熱度

1回答

如何在換行符後將語料庫內容轉換爲向量\ n「

當我嘗試在純文本上使用strsplit時，它具有所需的屬性，即存儲的值將從字符串轉換爲具有字符串的向量。例如， txt = "The fox is Brown.\nThe Fox has a tail." strsplit(txt, "\n") 對於我使用的是NLP包的實際問題，TM（v0.7-1）中的R 3.4.0在Windows 7 當我創建我的文集並嘗試使用content_transf

0熱度

1回答

同義詞

我想從一個CSV文件，其中的第一個字是「主」字和詞語的相同的記錄，其餘讀同義詞是2的倍數列出的清單是其同義詞現在我基本上要創建一個列表像我將不得不在R， **synonyms <- list( list(word="ss", syns=c("yy","yyss")), list(word="ser", syns=c("sert","sertyy","serty")) )**

0熱度

1回答

R的tm包的問題

我一直在嘗試跟隨Udemy教程，使用R中的tm包在推文上進行文本挖掘。到目前爲止，本教程中指定的許多函數（以及cran.org上的tm pdf）導致了一系列錯誤，我不清楚如何解決它們。我正在編碼RStudio版本1.0.143和macOS Sierra。代碼和錯誤下面是我試圖從一系列的鳴叫做出wordcloud： nyttweets <- searchTwitter("#NYT", n=1000

1熱度

1回答

在R中完成任務

我正在研究R中的文本挖掘，這裏有幾個來自我的語料庫的文檔，在刪除了標點符號，數字，URL和停用詞後。 myStopwords <- setdiff(myStopwords, c("r", "big")) myCorpus <- tm_map(myCorpus, removeWords, myStopwords) myCorpus <- tm_map(myCorpus, stripWhitesp

0熱度

1回答

使用tf-idf時使用R和tm的新數據

使用R和tm，我加載並清理了一堆文本文檔，並將它們製作成語料庫。之後，我使用tf-idf構建了他們的DTM，並且可以用於各種分類聚類算法。到現在爲止還挺好。現在，讓我們假設我有一個新文檔，並嘗試計算它與Corpus中文檔的距離。當然，我需要將它應用於原始集合的所有轉換。但我不明白如何計算新文檔的tf-idf矢量，因爲tf-idf依賴於整個集合，而不是單個文檔。將新文檔添加到語料庫並重新計算其tf

0熱度

2回答

使用tm包刪除R中的圖釋

我正在使用tm包清理Twitter語料庫。但是，該軟件包無法清理表情符號。這裏有一個重複的代碼： July4th_clean <- tm_map(July4th_clean, content_transformer(tolower)) Error in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is

0熱度

1回答

爲什麼tm包和RTextTools包的輸出不同？

我有一個260 RTI應用程序的數據集。我應該對他們執行LDA。我使用tm和RTextTools軟件包創建了term-doc矩陣。但是，輸出差別很大。 Tm軟件包不顯示任何稀疏的條目數量。總條款數量差別很大。下面是代碼： library("tm") library("RTextTools") <I read the data here into a variable called 'data