tm

    1熱度

    2回答

    文本分析我想用TM包希伯來文或阿拉伯文文本分析。我試了好幾種方法,看看是否TM將能夠處理一些話,但我遇到了一個錯誤,是否有解決這個問題的方法嗎? text <- "הנוסעים חיכו זמן רב לנסיעה" Encoding(text) #[1] "unknown" Encoding(text) <- "UTF-8" ap.corpus <- Corpus(DataframeS

    0熱度

    1回答

    我使用創建的雙字母組的列表: BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) tdm_a.bigram = TermDocumentMatrix(docs_a, control = list(tokenize = BigramTokenizer)) 我試圖

    1熱度

    1回答

    qdap :: mgsub採用以下參數: mgsub(x, pattern, replacement) 在庫(TM)胼變換可以內content_transformer()包裹非TM功能,例如 corpus <- tm_map(corpus, content_transformer(tolower)) 下面是一些拼寫混亂的文本數據幀: df <- data.frame( id = 1

    0熱度

    1回答

    我想分析開放式問題的答案。首先是單詞雲,然後當我要計算2-3個單詞短語的頻率時,我遇到了一個問題。 這裏是我的代碼: library('tm') tokenize_ngrams <- function(x,n=2)return(rownames(as.data.frame(unclass(textcnt(x,method="string",n=n))))) corpus <- Corpus(V

    2熱度

    1回答

    下面是我用它來創建雙克頻率列表的代碼: library(tm) library(RWeka) #data <- myData[,2] tdm.generate <- function(string, ng){ # tutorial on rweka - http://tm.r-forge.r-project.org/faq.html corpus <- Corpu

    0熱度

    3回答

    我是數據科學領域的文學學生。我試圖分析一個包含70個.txt文件的語料庫,這些文件都在一個目錄中。 我的最終目標是獲得一個包含文件名(或類似內容),句子和單詞計數,Flesch-Kincaid可讀性評分和MTLD詞彙多樣性分數的表格。 我發現了包koRpus和tm(和tm.plugin.koRpus),並試圖理解他們的文檔,但還沒有走到很遠。在RKward IDE和koRpus-Plugin的幫助

    0熱度

    1回答

    使用R(3.2.5)並加載下列軟件包 'SnowballC','tm','NLP','RWeka','RTextTools','wordcloud ','fpc' carmenCorpus <- Corpus(VectorSource(feedback$Description)) carmenCorpus <- tm_map(carmenCorpus, PlainTextDocument) c

    0熱度

    1回答

    也許我誤解了tm::DocumentTermMatrix的工作原理。我有一個語料庫其預處理後看起來是這樣的: head(Description.text, 3) [1] "azi sanitar local to1 presid osp martin presid ospedalier martin tofan torin tel possibil raggiung ospedal segu b

    0熱度

    1回答

    我想分析一個大文本文件夾,用於存在多種語言的名稱,地址和電話號碼。 這些通常會以「地址」,「電話號碼」,「名稱」,「公司」,「醫院」,「送達者」之前。我會有這些詞的字典。 我在想,如果文本挖掘工具是完美的工作。 我想爲所有這些文檔創建一個語料庫,然後在給定字典條目的右側或下方找到符合特定(我正在考慮正則表達式條件)的文本。 在R中的數據挖掘軟件包中是否有這樣的語法, 以獲取字詞表條目右側或下側的字

    -1熱度

    1回答

    我的電腦中有一個文件夾中有多個HTML文件。我想在R中閱讀它們,試圖儘可能保持原始格式。順便說一句,只有文字。我嘗試了兩種方法,其中錯誤地失敗了: ##first approach library (tm) cname <- file.path("C:", "Users", "usuario", "Desktop", "DEADataset", "The Phillipines", "gazz