tm

    0熱度

    1回答

    # My TermDocumentMatrix (TDM) Nepal.tdm # Structure of my TDM str(Nepal.tdm) # My locality vector localities # Structure of my locality vector str(localities) #chr [1:344] "kalyan" "surkhet

    1熱度

    1回答

    語料庫我創建的語料庫中的R用包TM指定語言和編碼如下: de_DE.corpus <- Corpus(VectorSource(de_DE.sample), readerControl = list(language="de_DE",encoding = "UTF_8")) de_DE.corpus[36]$content de_DE.dtm <- DocumentTermMatri

    0熱度

    1回答

    當我調查所得到的DTM矩陣,我發現的記號是小寫,除非設置被設置爲False。此外,帶有下劃線的單詞在標記之前被拆分。 當我擡頭看documentation我無法檢索默認設置,或者如果沒有提供明確的控制使用哪些設置。 在哪裏可以找到呢?

    0熱度

    1回答

    我正在嘗試構建一個Shiny應用程序,該應用程序可以通過從文本框(即文本框)匹配語料庫來動態顯示數據庫列中的句子。當用戶開始在文本框中輸入文本時,所有匹配的句子(文本類型中的語料)需要按照與語料庫匹配的詞數順序顯示 我嘗試了kwic函數,但這並不幫助匹配語料庫動態,做法,我試過了, require(quanteda) require(tm) data(crude, package = "tm"

    1熱度

    1回答

    請參閱下面的MWE,自定義標記器不工作,爲什麼? TM軟件包版本爲0.71 library(tm) ts <- c("This is a testimonial") corpDs <- Corpus(VectorSource(ts)) #This is not working ownTokenizer <- function(x) unlist(strsplit(as.characte

    0熱度

    1回答

    爲什麼我不能使用「TermDocumentMatrix」? 我用下面的命令以單數形式統一複數單詞,但是我得到一個錯誤。 crudeCorp <- tm_map(crudeCorp, gsub, pattern = "smells", replacement = "smell") crudeCorp <- tm_map(crudeCorp, gsub, pattern = "feels", rep

    0熱度

    1回答

    直到我使用這個短語時,「TermDocumentMatrix」是好的。 doc <- tm_map(doc, gsub, pattern = "buy", replacement = "bought") 但是,在使用這個短語之後,「TermDocumentMatrix」會產生一個錯誤。 Error in UseMethod("meta", x) : no applicable method

    1熱度

    1回答

    有沒有人設法創建一個大型的查找/替換函數/工作代碼片段,在數據框中交換出已知的bigrams? 下面是一個例子。我能夠不用onesie-twosie替換,但我真的想利用我想找到的大約800個術語的已知詞典 - 替換,以便在DTM生成之前將它們轉換爲單詞單元。例如,我想將「Google Analytics」轉換爲「google-analytics」。 我知道這在理論上是可行的;從本質上講,自定義停用

    1熱度

    1回答

    lemmes我想用外部的txt文件,結構爲波蘭引理如下: (來源引理對許多其他語言http://www.lexiconista.com/datasets/lemmatization/) Abadan Abadanem Abadan Abadanie Abadan Abadanowi Abadan Abadanu abadańczyk abadańczycy abadańczyk abad

    1熱度

    1回答

    我有一個超過10M文檔的大型語料庫。每當我嘗試在多個內核的改造利用mc.cores的說法,我得到錯誤: Error in FUN(content(x), ...) : unused argument (mc.cores = 10) 我在我目前的託管[R工作室15個可用內核。 # I have a corpus > inspect(corpus[1]) <<VCorpus>> Metada