tm - 優文庫

tm

3熱度

1回答

我有一個包含3個變量（ID，標題，摘要）的15個觀察值的日誌數據的語料庫。使用R Studio我從.csv文件讀取數據（每個觀察一行）。當執行一些文本挖掘操作時，使用方法stemCompletion時遇到了一些麻煩。應用stemCompletion後，我觀察到結果爲.csv的每個梗線提供了三次。所有其他的tm方法（例如stemDocument）只產生一個結果。我不知道爲什麼會這樣，我怎麼能解決

4熱度

2回答

tm自定義刪除標點符號，除了＃標籤

我有一個來自twitter的推文語料庫。我清理這個語料庫（removeWords，tolower，刪除URls），最後還想刪除標點符號。這裏是我的代碼： tweetCorpus <- tm_map(tweetCorpus, removePunctuation, preserve_intra_word_dashes = TRUE) 現在的問題是，如果這樣做我也失去了包括hashtag（＃）。有

-1熱度

2回答

使用「in」，「if」作爲R中的列名稱時出錯

只要遇到此問題。我正在使用一個數據框，其中包含幾千個使用單詞和單詞分割創建的列。我的一個專欄的名字是「in」，另一個名字是「if」。當試圖做數據$ in之類的事情時，會有一條錯誤消息抱怨這一點。見例如： require(tm) text<-data.frame(colText<- c("namein", "Inmortal")) corpus <- Corpus(DataframeSource

0熱度

1回答

加載中的R

我使用TM包中的R，以通過數據集，其結構如下執行文本挖掘從2個目錄的數據語料庫：有一個目錄group_Data其中包含與名稱2個不同的目錄B和C.現在目錄B包含文檔和目錄C也包含文檔。我知道單獨通過創建2個語料庫加載目錄B和C的數據的方式： library(tm) pathToB = "group_Data/B" pathToC = "group_Data/C" bCorpus = C

1熱度

2回答

R字符串相似度矩陣

我忙於處理大量投訴數據的文本分析項目。數據的一個問題是你得到同一單詞的多個同義詞，例如，賬單，計費，賬單，賬單等。通常我會創建一個詞頻列表並手動匹配顯而易見的詞，然後將主詞應用回原始語料庫以用於每個同義詞實例，例如，賬單，賬單，賬單 - >賬單（因爲它是所有賬單相關的）。我有一個漂亮的代碼，有人在這裏幫助我。最近我一直在玩弄使用字符串距離算法的想法，通過識別可能的同義詞來使我的生活更輕鬆。我正在

4熱度

1回答

主題建模：根據條款

的預定義列表上的建築主題，我花了一對夫婦中的R主題模型工作日的，我想知道如果我能做到以下幾點：我想R根據預定義的術語表建立具有特定術語的主題。我已經與這個名單合作，以確定在文檔中的n-gram（RWeka）和計數只有那些使用下面的代碼發生在我termlist中的術語： terms=read.delim("TermList.csv", header=F, stringsAsFactor=F)

0熱度

2回答

按Google更新按日期排序或按谷歌新聞來源日期排序R

我正在使用R程序包tm.plugin.webmining。使用函數GoogleNewsSource()我想查詢按日期排序並從特定日期排序的新聞。有沒有任何參數查詢特定日期的消息？ library(tm) library(tm.plugin.webmining) searchTerm <- "Data Mining" corpusGoog <- WebCorpus(GoogleNewsSou

2熱度

2回答

在R語料庫中搜索以「esque」結尾的所有單詞

我使用R的tm包使用字典方法獲取單詞頻率。我希望找到以「esque」結尾的所有單詞，無論它們拼寫爲「abcd-esque」，「abcdesque」還是「abcd esque」（因爲我的語料庫中存在所有不同的拼寫）。我如何爲此創建正則表達式？這是我迄今爲止所擁有的。任何幫助/提示將不勝感激。 text <- Corpus(DirSource("txt/")) text <- tm_map(text

3熱度

1回答

如何將單個列的R數據框轉換爲tm的語料庫，以便將每行作爲文檔？

我想使用tm軟件包的findAssocs命令，但它僅在文集中有多個文檔時有效。相反，我有一列數據框，其中每行包含來自Tweet的文本。是否有可能將其轉換爲一個將每行作爲新文檔的語料庫？ VCorpus (documents: 1, metadata (corpus/indexed): 0/0) TermDocumentMatrix (terms: 71, documents: 1) 我有10

2熱度

1回答

與rJava進口靜態Java功能不

我已經準備了一類在Java 6的靜態方法，我已經導出到一個JAR文件tm_map（）工作它與R與下面的代碼： require(rJava) .jinit("java/stem-util.jar") stem = J("pl.poznan.put.stemutil.Stemmer")$stemText 然後，當我直接調用它，它的工作原理，如：但是，當我嘗試使用tm_map使用它（）功能，出