tidytext

    1熱度

    1回答

    正如您可以在右側看到圖例,我需要將它重新排列爲1,2,3,... 64,而不是1,10,11 ..., 8。我的術語文檔矩陣如下。 請給我一些想法如何重新排列代碼。 A tibble: 4,530 x 5 document term count n total <chr> <chr> <dbl> <int> <dbl> 1 1 activ 1 1 109 2

    1熱度

    2回答

    問題:我如何計算和碼字的各主題中的頻率是多少? 我的目標是從每個主題創建「詞雲」。 附註:>我有wordcloud沒有問題。 從代碼, burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <-list(2017,5,63,100001,765) nstart <- 5

    0熱度

    1回答

    有沒有人在R中使用'tidytextmining'進行情感分析? Tidytextmining 我使用R訴3.4.1和我正在以下錯誤此一段代碼。 library(tidytext) library(dplyr) get_sentiments("afinn") 錯誤 - 錯誤get_sentiments( 「afinn」): 找不到函數 「get_sentiments」 我已經安裝了合適的包

    2熱度

    1回答

    我想使用tidytext同時使用bigram和trigram。我可以使用什麼代碼來查找2個和3個單詞。 這是隻使用雙字母組代碼: library(tidytext) library(janeaustenr) austen_bigrams <- austen_books() %>% unnest_tokens(bigram, text, token = "ngrams", n = 2

    0熱度

    2回答

    我試圖使用tidytext分析一些文本並使用下面的代碼;然而,得到了一個錯誤信息: dt %>% unnest_tokens(output, input, token="ngrams", n=3) Error in mutate_impl(.data, dots) : invalid argument type 這是我對我公司的內部研發平臺得到了錯誤的消息,但是代碼在我的本地研發工作室運行

    0熱度

    1回答

    的對面這很可能是一個愚蠢的問題,但我GOOGLE和谷歌搜索並找不到解決方案。我認爲這是因爲我不知道用我的問題來搜索的正確方法。 我有一個數據框,我已經在R中轉換爲整潔的文本格式來擺脫停用詞。我現在想將那個數據框'不整潔'回到原來的格式。 unnest_tokens的反向/反向命令是什麼? 編輯:這裏是我正在使用的數據的樣子。我試圖複製西爾格和羅賓遜的書Tidy Text的分析,但使用意大利歌劇的l

    1熱度

    1回答

    我試圖執行基於http://tidytextmining.com/sentiment.html#the-sentiments-dataset情感分析。在執行情感分析之前,我需要將我的數據集轉換爲整潔的格式。 我的數據集的形式: x <- c("test1" , "test2") y <- c("this is test text1" , "this is test text2") res <-

    0熱度

    1回答

    我一直在處理情緒數據集,發現bing和nrc數據集包含幾個詞,既有積極的一面,也有消極的一面。 **兵 - 三個字正面和負面情緒** env_test_bing_raw <- get_sentiments("bing") %>% filter(word %in% c("envious", "enviously","enviousness")) # A tibble: 6 x 2

    0熱度

    2回答

    我正在轉換正在從PDF文件中讀取的文本。 特別是,我有一個字符向量,其中包含連字符(「 - 」),用於預製大綱,或將單詞分隔爲新行,但僅當發生時纔會出現。例如: text text text 123- 456 text text.. 我想要做的就是刪除所有hypens和toghether粘貼這些話。 text text text 123456 text text.. 我開始嘗試: li

    1熱度

    2回答

    我有一個PDF文件,我正在閱讀的文本。 我遇到的問題與數字之間發生的音節化有關。 鏈接到github上的file。 library(pdftools) library(tidytext) library(readxl) library(dplyr) setwd("~/Automation - Official Guazzete") path <- getwd() pdf_file <