tm

    0熱度

    2回答

    當我使用TM時,我試圖用inspect()顯示TermDocumentMatrix,結果並不是所有的矩陣,只是它的一部分。 我真的很困惑。 這是我的TDM的結果: > tdm <<TermDocumentMatrix (terms: 84, documents: 1)>> Non-/sparse entries: 84/0 Sparsity : 0% Maximal term leng

    3熱度

    1回答

    我想使用R來進行文本分類。我用DocumentTermMatrix返回字的矩陣: library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm) words <-

    1熱度

    1回答

    使用wordcloud軟件包創建wordcloud時,似乎軟件包默認忽略三個字符以下的單詞(如「tv」)。我認爲這是一個功能,而不是一個bug,但我仍然無法找到調整最小字符數的參數。 的wordcloud抵抗()創建,並與該語料庫()和tm_map預處理詞語從TM包功能的語料庫運行。我已經證實,有問題的單詞沒有在例如刪除停用詞 - 它們仍處於運行wordcloud()函數的最終語料庫中。 重複的例

    0熱度

    1回答

    當我嘗試在純文本上使用strsplit時,它具有所需的屬性,即存儲的值將從字符串轉換爲具有字符串的向量。例如, txt = "The fox is Brown.\nThe Fox has a tail." strsplit(txt, "\n") 對於我使用的是NLP包的實際問題,TM(v0.7-1)中的R 3.4.0在Windows 7 當我創建我的文集並嘗試使用content_transf

    0熱度

    1回答

    我想從一個CSV文件,其中的第一個字是「主」字和詞語的相同的記錄,其餘讀同義詞是2的倍數列出的清單是其同義詞 現在我基本上要創建一個列表像我將不得不在R, **synonyms <- list( list(word="ss", syns=c("yy","yyss")), list(word="ser", syns=c("sert","sertyy","serty")) )**

    0熱度

    1回答

    我一直在嘗試跟隨Udemy教程,使用R中的tm包在推文上進行文本挖掘。 到目前爲止,本教程中指定的許多函數(以及cran.org上的tm pdf)導致了一系列錯誤,我不清楚如何解決它們。我正在編碼RStudio版本1.0.143和macOS Sierra。代碼和錯誤下面是我試圖從一系列的鳴叫做出wordcloud: nyttweets <- searchTwitter("#NYT", n=1000

    1熱度

    1回答

    我正在研究R中的文本挖掘,這裏有幾個來自我的語料庫的文檔,在刪除了標點符號,數字,URL和停用詞後。 myStopwords <- setdiff(myStopwords, c("r", "big")) myCorpus <- tm_map(myCorpus, removeWords, myStopwords) myCorpus <- tm_map(myCorpus, stripWhitesp

    0熱度

    1回答

    使用R和tm,我加載並清理了一堆文本文檔,並將它們製作成語料庫。之後,我使用tf-idf構建了他們的DTM,並且可以用於各種分類聚類算法。到現在爲止還挺好。 現在,讓我們假設我有一個新文檔,並嘗試計算它與Corpus中文檔的距離。當然,我需要將它應用於原始集合的所有轉換。但我不明白如何計算新文檔的tf-idf矢量,因爲tf-idf依賴於整個集合,而不是單個文檔。將新文檔添加到語料庫並重新計算其tf

    0熱度

    2回答

    我正在使用tm包清理Twitter語料庫。但是,該軟件包無法清理表情符號。 這裏有一個重複的代碼: July4th_clean <- tm_map(July4th_clean, content_transformer(tolower)) Error in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is

    0熱度

    1回答

    我有一個260 RTI應用程序的數據集。我應該對他們執行LDA。我使用tm和RTextTools軟件包創建了term-doc矩陣。但是,輸出差別很大。 Tm軟件包不顯示任何稀疏的條目數量。總條款數量差別很大。 下面是代碼: library("tm") library("RTextTools") <I read the data here into a variable called 'data