tm

    0熱度

    1回答

    我有一個推文語料庫,其中一些人有我想刪除的@mentions,我使用tm package的tm_map函數,但沒有得到想要的結果。這裏有一個例子: tweetscorrected[[1]]$content >@abc thank you for the treat tweetmentionsremoved<- tm_map(tweetscorrected, removeWords, "@\\w

    0熱度

    2回答

    tm軟件包可以讓用戶「修剪」文檔語料庫中的文字和標點符號: tm_map(corpusDocs,removeWords,stopwords(「english 「)) 有沒有辦法給tm_map提供從csv文件中讀入並用來代替停用詞(」english「)的單詞的定製列表? 謝謝。 BSL

    1熱度

    1回答

    library(tm) reut21578 <- system.file("texts", "crude", package = "tm") reuters <- Corpus(DirSource(reut21578), readerControl = list(reader = readReut21578XML)) file <- "reut-0001.xml" reu

    0熱度

    1回答

    我有一個奇怪的問題,我似乎無法做出正面或反面。任何幫助是極大的讚賞。我在Mac Book El Capitan 10.11.3上運行RStudio版本0.99.879。 基本上我試圖爲大量的wikipedia語料庫製作DocumentTermMatrix。我已經用https://github.com/idio/json-wikipedia解析了wikipedia xml轉儲,然後編寫了一個R腳本將

    0熱度

    1回答

    我有5個文檔術語矩陣,例如DTM1,DTM2,DTM3,DTM4,DTM5。 現在我寫了一個名爲myBarPlot(DTM,標題,顏色) 的函數,該函數接受DocumentTermMatrix和標題(字符)到每個繪圖併爲每個繪圖分開顏色。 現在我如何將所有DTM作爲參數傳遞給函數myBarPlot並生成條形圖。我希望這發生在一個循環中。 就像這樣。 for(i in 1:seq(DTM)) # a

    2熱度

    1回答

    我完全新的節目,現在我做我的RESMA,我已經開始學習R. 我現在要做的事情很簡單,我似乎在某個時候會失敗。我只需要在一個txt文件中計算字形(字母),沒有別的。我首先使用TM創建一個語料庫,我正在清理它和所有內容,但是當我嘗試運行每個字形的頻率分析時,文本實際上沒有清除標點和奇怪符號等。 代碼I現在用的是這樣的: library("tm") library("SnowballC") libr

    0熱度

    1回答

    我使用R(3.2.3)tm-package(0.6-2)並希望根據包含的部分字符串匹配來搜索我的語料庫元數據「id」。 例如,我想在「id」列中過濾包含字符串「US」的所有文檔。字符串「美國」之前和之後是各種字符和數字。 我發現了一個類似的例子here。建議下載quanteda包,但我認爲這也應該可以用tm包。 發現另一個更相關的類似問題的答案是here。我試圖將該示例代碼適用於我的上下文。但是,

    0熱度

    3回答

    我正在使用R和tm包來進行一些文本分析。 我正在嘗試根據在單個文本文件的內容中是否找到某個表達式來構建語料庫的一個子集。 我創建20個TEXTFILES語料庫(謝謝你lukeA在這個例子中): reut21578 <- system.file("texts", "crude", package = "tm") corp <- VCorpus(DirSource(reut21578), list(

    2熱度

    1回答

    我有一個'check_text.txt'文件,其中包含「說說make製造」。我想對它進行干擾以獲得​​「說出口說make make」。我試過在tm包中使用stemDocument,如下所示,但是隻能得到「說出來說說make make」。有沒有一種方法可以對過去式單詞進行詞幹化處理?在真實世界的自然語言處理中是否有必要這樣做?謝謝! filename = 'check_text.txt' con

    0熱度

    1回答

    我試圖在輸入文本中找出前10個常用單詞與其餘常用單詞之間的關聯。 當我看的findAssocs()獨立輸出: findAssocs(dtm, "good", corlimit=0.4) 它通過打印字與協會已經在尋求「好」,清楚地提供輸出。 $good better got hook next content fit person 0.44 0.44 0.44 0.44 0.43