tm - 優文庫

tm

2熱度

1回答

當我使用tm包文本挖掘，我經常會遵循非常相似，這樣的工作流程： library(tm) data(crude) crude = tm_map(crude, tolower) crude = tm_map(crude, removePunctuation) crude = tm_map(crude, removeWords, stopwords("english")) crude = tm

2熱度

1回答

R數據框中十個最高列值

目前，我正在從一個文本塊中提取關鍵字的項目。以下是初始列表中前三項的示例。（道歉的冗長） descriptest<-c("Columbia University is one of the world's most important centers of research and at the same time a distinctive and distinguished learnin

1熱度

2回答

R中的詞頻散點圖（詞作爲標籤）

我目前正在研究比較英國國會議員在議會中的角色和他們在Twitter上的角色。我從一位議員收集了Twitter數據（最重要的是原始文本）和議會發言，並希望做一個散點圖，顯示Twitter和議會（右上角）哪些詞是常見的，哪些詞不是（左下角手角落）。所以，x軸是議會中的詞頻，y軸是twitter上的詞頻。到目前爲止，我已經用R完成了本文的所有工作。我對R有零經驗，直到現在我只與STATA合作過。我試

2熱度

1回答

關於tm語料庫函數的lapply行爲

我有一個我想用lapply的數據框。我選擇了第一列在這裏的第一個值： link <- c( "http://www.r-statistics.com/tag/hadley-wickham/", "http://had.co.nz/", "http://vita.had.co.nz/articles.ht

6熱度

3回答

TM結合語料庫

的名單我有我所獲取的web內容的URL列表，並列入到這TM語料庫： library(tm) library(XML) link <- c( "http://www.r-statistics.com/tag/hadley-wickham/", "http://had.co.nz/", "http://vita.had.co

1熱度

1回答

lda.collapsed.gibbs.sampler最初不能在R工作

我對R完全陌生，我目前正在使用tm和lda包來分析日誌。的lda.collapsed.gibbs.sampler可以採取「初始」的參數，並在文檔中它表示： initial A list of initial topic assignments for words. It should be in the same format as the assignments field of the re

2熱度

2回答

如何使用tm_map將元數據添加到tm語料庫對象

我一直在閱讀不同的問題/答案（特別是here和here），但沒有管理任何適用於我的情況。我有一個屬性ID，作者，文本，如11,390行矩陣： library(tm) m <- cbind(c("01","02","03","04","05","06"), c("Author1","Author2","Author2","Author3","Author3","Auhtor4")

0熱度

1回答

Mantain用戶定義的元數據與定製函數爲tm_map

我有一個函數，我用它來翻譯令牌基於鍵/值字典。 dictionary <- c("casa", "barco", "carro", "arbol") names(dictionary) <- c("home", "boat", "car", "tree") translate2 <- function (text, dictionary) { text_out <- charact

2熱度

1回答

C - 如何將time_t轉換爲tm？

我有一個變量，它使用time_t數據類型。我想將此類型轉換爲「YYYY-MM-DD HH：MM：SS」。我只知道，如果它只是在localtime()示例工作： char buff[20]; time_t now = time(NULL); strftime(buff, 20, "%Y-%m-%d %H:%M:%S", localtime(&now)); 任何建議如何轉換？因爲我有時間每分鐘

0熱度

1回答

R主題建模 - lda命令'lexicalize'給出意想不到的結果

我在R中使用'lda'包來執行語料庫的主題模型分析（我們稱之爲'corpusB'）。我正在準備用於分析的語料庫，首先使用命令'lexicalize'，該命令返回一個術語文檔矩陣，如果沒有預先指定，則會在語料庫中出現具有唯一令牌的詞彙表。爲了研究的目的，我想使用從另一個語料庫（我們稱之爲'corpusA'）推斷的詞彙來詞彙化語料庫，這是應該很容易完成的事情。然而，它不起作用。這裏是一個代碼示例：