tm

    9熱度

    4回答

    我試圖找到同時出現在多個文檔中的單詞。 讓我們舉一個例子。 doc1: "this is a document about milkyway" doc2: "milky way is huge" 正如你可以看到上述2個文件,字「銀河」是發生在兩個文檔但在第二文檔術語「銀河」是由一個空間和在第一DOC中分離它不是。 我做以下,以獲得文檔詞矩陣R. library(tm) tmp.text <

    1熱度

    1回答

    此問題與我先前的問題有關。 Treat words separated by space in the same manner 將它作爲單獨的發佈,因爲它可以幫助其他用戶輕鬆找到它。 現在的問題是term document matrix的計算方式是tm包。我想稍微調整一下這個方法。 當前任何期限的文檔矩陣都是通過在文檔中查找單詞'milky'作爲單獨的單詞(而不是字符串)來創建的。例如,讓我們假設

    2熱度

    2回答

    比方說,我有文本中的一部分這樣的文件: "Other segment comprised of our active pharmaceutical ingredient (API) business,which..." 我想刪除「(API)」,它需要 corpus <- tm_map(corpus, removePunctuation) 之前完成取出後「(API)」,它應該是這個樣子如下:

    0熱度

    1回答

    我使用R中的tm包進行一些文本挖掘。我有一個術語頻率矩陣,其中每一行都是一個文檔,每一列都是一個單詞,每個單元都是這個單詞的頻率。我試圖將其轉換爲DocumentTermTermMatrix對象。我似乎無法找到處理該問題的功能。看起來來源通常是文件。 我試過as.DocumentTermTermMatrix()但它要求一個說法「加權」給了以下錯誤: Error in .TermDocumentMa

    5熱度

    4回答

    我已經查看了此處發佈的其他類似問題(如this),但問題仍然存在。 我有一個文本數據的數據框,我需要幹。所以我將它轉換成一個語料庫,然後完成它,然後完成詞幹的單詞,然後嘗試獲取文本的數據框作爲輸出。 myCorpus <- Corpus(VectorSource(textDf$text)) myCorpus <- tm_map(myCorpus, removeWords, stopwords('

    0熱度

    2回答

    我試圖找到馬丁路德金的「我有一個夢想」演講中每學期的頻率。我已將所有大寫字母轉換爲小寫字母,並已刪除所有停用詞。我有一個.txt文件中的文本,所以我不能在這裏顯示它。該文件中讀取的代碼如下: speech <- readLines(speech.txt) 然後我執行轉換爲小寫和去除的成功停止的話,並把它稱爲: clean.speech 現在我有找到一些問題每學期的頻率。我創建了一個文集,檢

    3熱度

    1回答

    我想使用removeWords(stopwords("english"))功能通過:corpus <- tm_map(corpus,removeWords, stopwords("english"))但一些詞像「不」和其他否定我想保留。 是否可以使用removeWords, stopwords("english")函數但是如果指定排除該列表中的某些單詞? 我怎樣才能防止「不」,例如? (輔助)是否

    1熱度

    1回答

    成員tm_mon,在struct tm中存儲爲整數。我正在尋找另一次存儲月份實際名稱的時間stuct。我可以用 ctime(); 但我該如何選擇性地輸出月份?

    0熱度

    2回答

    我使用以下TM + RWeka代碼以提取最頻繁的n元語法文本中提取最常見的n-gram: library("RWeka") library("tm") text <- c('I am good person','I am bad person','You are great','You are more great','todo learn english','He is ok') Big

    0熱度

    2回答

    我有一個包含200個元素的大型Vcorpus「wc」,每個元素wc [i]包含文章內容和其元數據列表。 > lapply(wci[1], as.character) $ 1 [1] "En guise de mise en bouche\n laissez-vous porter par cette mignardise musicale!\n \n ...etc " 我想從內容中刪除「/