tm

    3熱度

    1回答

    我有一個包含3個變量(ID,標題,摘要)的15個觀察值的日誌數據的語料庫。使用R Studio我從.csv文件讀取數據(每個觀察一行)。 當執行一些文本挖掘操作時,使用方法stemCompletion時遇到了一些麻煩。 應用stemCompletion後,我觀察到結果爲.csv的每個梗線提供了三次。所有其他的tm方法(例如stemDocument)只產生一個結果。我不知道爲什麼會這樣,我怎麼能解決

    4熱度

    2回答

    我有一個來自twitter的推文語料庫。我清理這個語料庫(removeWords,tolower,刪除URls),最後還想刪除標點符號。 這裏是我的代碼: tweetCorpus <- tm_map(tweetCorpus, removePunctuation, preserve_intra_word_dashes = TRUE) 現在的問題是,如果這樣做我也失去了包括hashtag(#)。有

    -1熱度

    2回答

    只要遇到此問題。我正在使用一個數據框,其中包含幾千個使用單詞和單詞分割創建的列。我的一個專欄的名字是「in」,另一個名字是「if」。當試圖做數據$ in之類的事情時,會有一條錯誤消息抱怨這一點。見例如: require(tm) text<-data.frame(colText<- c("namein", "Inmortal")) corpus <- Corpus(DataframeSource

    0熱度

    1回答

    我使用TM包中的R,以通過數據集,其結構如下執行文本挖掘從2個目錄的數據語料庫: 有一個目錄group_Data其中包含與名稱2個不同的目錄B和C.現在目錄B包含文檔和目錄C也包含文檔。 我知道單獨通過創建2個語料庫加載目錄B和C的數據的方式: library(tm) pathToB = "group_Data/B" pathToC = "group_Data/C" bCorpus = C

    1熱度

    2回答

    我忙於處理大量投訴數據的文本分析項目。數據的一個問題是你得到同一單詞的多個同義詞,例如,賬單,計費,賬單,賬單等。通常我會創建一個詞頻列表並手動匹配顯而易見的詞,然後將主詞應用回原始語料庫以用於每個同義詞實例,例如,賬單,賬單,賬單 - >賬單(因爲它是所有賬單相關的)。我有一個漂亮的代碼,有人在這裏幫助我。 最近我一直在玩弄使用字符串距離算法的想法,通過識別可能的同義詞來使我的生活更輕鬆。我正在

    4熱度

    1回答

    的預定義列表上的建築主題,我花了一對夫婦中的R主題模型工作日的,我想知道如果我能做到以下幾點: 我想R根據預定義的術語表建立具有特定術語的主題。我已經與這個名單合作,以確定在文檔中的n-gram(RWeka)和計數只有那些使用下面的代碼發生在我termlist中的術語: terms=read.delim("TermList.csv", header=F, stringsAsFactor=F)

    0熱度

    2回答

    我正在使用R程序包tm.plugin.webmining。使用函數GoogleNewsSource()我想查詢按日期排序並從特定日期排序的新聞。有沒有任何參數查詢特定日期的消息? library(tm) library(tm.plugin.webmining) searchTerm <- "Data Mining" corpusGoog <- WebCorpus(GoogleNewsSou

    2熱度

    2回答

    我使用R的tm包使用字典方法獲取單詞頻率。我希望找到以「esque」結尾的所有單詞,無論它們拼寫爲「abcd-esque」,「abcdesque」還是「abcd esque」(因爲我的語料庫中存在所有不同的拼寫)。我如何爲此創建正則表達式?這是我迄今爲止所擁有的。任何幫助/提示將不勝感激。 text <- Corpus(DirSource("txt/")) text <- tm_map(text

    3熱度

    1回答

    我想使用tm軟件包的findAssocs命令,但它僅在文集中有多個文檔時有效。相反,我有一列數據框,其中每行包含來自Tweet的文本。是否有可能將其轉換爲一個將每行作爲新文檔的語料庫? VCorpus (documents: 1, metadata (corpus/indexed): 0/0) TermDocumentMatrix (terms: 71, documents: 1) 我有10

    2熱度

    1回答

    我已經準備了一類在Java 6的靜態方法,我已經導出到一個JAR文件tm_map()工作它與R與下面的代碼: require(rJava) .jinit("java/stem-util.jar") stem = J("pl.poznan.put.stemutil.Stemmer")$stemText 然後,當我直接調用它,它的工作原理,如: 但是,當我嘗試使用tm_map使用它()功能,出