tm - 優文庫

tm

9熱度

4回答

我試圖找到同時出現在多個文檔中的單詞。讓我們舉一個例子。 doc1: "this is a document about milkyway" doc2: "milky way is huge" 正如你可以看到上述2個文件，字「銀河」是發生在兩個文檔但在第二文檔術語「銀河」是由一個空間和在第一DOC中分離它不是。我做以下，以獲得文檔詞矩陣R. library(tm) tmp.text <

1熱度

1回答

在字符串中查找單詞時計算術語文檔矩陣也

此問題與我先前的問題有關。 Treat words separated by space in the same manner 將它作爲單獨的發佈，因爲它可以幫助其他用戶輕鬆找到它。現在的問題是term document matrix的計算方式是tm包。我想稍微調整一下這個方法。當前任何期限的文檔矩陣都是通過在文檔中查找單詞'milky'作爲單獨的單詞（而不是字符串）來創建的。例如，讓我們假設

2熱度

2回答

如何通過tm包刪除單詞中的括號？

比方說，我有文本中的一部分這樣的文件： "Other segment comprised of our active pharmaceutical ingredient (API) business,which..." 我想刪除「（API）」，它需要 corpus <- tm_map(corpus, removePunctuation) 之前完成取出後「（API）」，它應該是這個樣子如下：

0熱度

1回答

tm中的DocumentTermMatrix的Term頻率表R包

我使用R中的tm包進行一些文本挖掘。我有一個術語頻率矩陣，其中每一行都是一個文檔，每一列都是一個單詞，每個單元都是這個單詞的頻率。我試圖將其轉換爲DocumentTermTermMatrix對象。我似乎無法找到處理該問題的功能。看起來來源通常是文件。我試過as.DocumentTermTermMatrix()但它要求一個說法「加權」給了以下錯誤： Error in .TermDocumentMa

5熱度

4回答

無法將語料庫轉換爲R中的數據框

我已經查看了此處發佈的其他類似問題（如this），但問題仍然存在。我有一個文本數據的數據框，我需要幹。所以我將它轉換成一個語料庫，然後完成它，然後完成詞幹的單詞，然後嘗試獲取文本的數據框作爲輸出。 myCorpus <- Corpus(VectorSource(textDf$text)) myCorpus <- tm_map(myCorpus, removeWords, stopwords('

0熱度

2回答

R：每學期查找頻率 - 警告消息

我試圖找到馬丁路德金的「我有一個夢想」演講中每學期的頻率。我已將所有大寫字母轉換爲小寫字母，並已刪除所有停用詞。我有一個.txt文件中的文本，所以我不能在這裏顯示它。該文件中讀取的代碼如下： speech <- readLines(speech.txt) 然後我執行轉換爲小寫和去除的成功停止的話，並把它稱爲： clean.speech 現在我有找到一些問題每學期的頻率。我創建了一個文集，檢

3熱度

1回答

包tm：removeWords如何避免刪除CERTIAN（否定具體）「英語」停用詞如果指定？

我想使用removeWords（stopwords("english")）功能通過：corpus <- tm_map(corpus,removeWords, stopwords("english"))但一些詞像「不」和其他否定我想保留。是否可以使用removeWords, stopwords("english")函數但是如果指定排除該列表中的某些單詞？我怎樣才能防止「不」，例如？（輔助）是否

1熱度

1回答

正在尋找具有除tm以外的成員對象的另一個時間結構

成員tm_mon，在struct tm中存儲爲整數。我正在尋找另一次存儲月份實際名稱的時間stuct。我可以用 ctime(); 但我該如何選擇性地輸出月份？

0熱度

2回答

性能方法，使用R

我使用以下TM + RWeka代碼以提取最頻繁的n元語法文本中提取最常見的n-gram： library("RWeka") library("tm") text <- c('I am good person','I am bad person','You are great','You are more great','todo learn english','He is ok') Big

0熱度

2回答

替換所有Vcorpus內容中的字符串 - R

我有一個包含200個元素的大型Vcorpus「wc」，每個元素wc [i]包含文章內容和其元數據列表。 > lapply(wci[1], as.character) $ 1 [1] "En guise de mise en bouche\n laissez-vous porter par cette mignardise musicale!\n \n ...etc " 我想從內容中刪除「/