tm

    2熱度

    1回答

    當我使用tm包文本挖掘,我經常會遵循非常相似,這樣的工作流程: library(tm) data(crude) crude = tm_map(crude, tolower) crude = tm_map(crude, removePunctuation) crude = tm_map(crude, removeWords, stopwords("english")) crude = tm

    2熱度

    1回答

    目前,我正在從一個文本塊中提取關鍵字的項目。 以下是初始列表中前三項的示例。 (道歉的冗長) descriptest<-c("Columbia University is one of the world's most important centers of research and at the same time a distinctive and distinguished learnin

    1熱度

    2回答

    我目前正在研究比較英國國會議員在議會中的角色和他們在Twitter上的角色。我從一位議員收集了Twitter數據(最重要的是原始文本)和議會發言,並希望做一個散點圖,顯示Twitter和議會(右上角)哪些詞是常見的,哪些詞不是(左下角手角落)。所以,x軸是議會中的詞頻,y軸是twitter上的詞頻。 到目前爲止,我已經用R完成了本文的所有工作。我對R有零經驗,直到現在我只與STATA合作過。 我試

    2熱度

    1回答

    我有一個我想用lapply的數據框。我選擇了第一列在這裏的第一個值: link <- c( "http://www.r-statistics.com/tag/hadley-wickham/", "http://had.co.nz/", "http://vita.had.co.nz/articles.ht

    6熱度

    3回答

    的名單我有我所獲取的web內容的URL列表,並列入到這TM語料庫: library(tm) library(XML) link <- c( "http://www.r-statistics.com/tag/hadley-wickham/", "http://had.co.nz/", "http://vita.had.co

    1熱度

    1回答

    我對R完全陌生,我目前正在使用tm和lda包來分析日誌。 的lda.collapsed.gibbs.sampler可以採取「初始」的參數,並在文檔中它表示: initial A list of initial topic assignments for words. It should be in the same format as the assignments field of the re

    2熱度

    2回答

    我一直在閱讀不同的問題/答案(特別是here和here),但沒有管理任何適用於我的情況。 我有一個屬性ID,作者,文本,如11,390行矩陣: library(tm) m <- cbind(c("01","02","03","04","05","06"), c("Author1","Author2","Author2","Author3","Author3","Auhtor4")

    0熱度

    1回答

    我有一個函數,我用它來翻譯令牌基於鍵/值字典。 dictionary <- c("casa", "barco", "carro", "arbol") names(dictionary) <- c("home", "boat", "car", "tree") translate2 <- function (text, dictionary) { text_out <- charact

    2熱度

    1回答

    我有一個變量,它使用time_t數據類型。我想將此類型轉換爲「YYYY-MM-DD HH:MM:SS」。我只知道,如果它只是在localtime()示例工作: char buff[20]; time_t now = time(NULL); strftime(buff, 20, "%Y-%m-%d %H:%M:%S", localtime(&now)); 任何建議如何轉換?因爲我有時間每分鐘

    0熱度

    1回答

    我在R中使用'lda'包來執行語料庫的主題模型分析(我們稱之爲'corpusB')。我正在準備用於分析的語料庫,首先使用命令'lexicalize',該命令返回一個術語文檔矩陣,如果沒有預先指定,則會在語料庫中出現具有唯一令牌的詞彙表。 爲了研究的目的,我想使用從另一個語料庫(我們稱之爲'corpusA')推斷的詞彙來詞彙化語料庫,這是應該很容易完成的事情。然而,它不起作用。這裏是一個代碼示例: