tidytext

1熱度

1回答

正如您可以在右側看到圖例，我需要將它重新排列爲1,2,3，... 64，而不是1,10,11 ...， 8。我的術語文檔矩陣如下。請給我一些想法如何重新排列代碼。 A tibble: 4,530 x 5 document term count n total <chr> <chr> <dbl> <int> <dbl> 1 1 activ 1 1 109 2

1熱度

2回答

主題建模：LDA，詞頻每個主題和Wordcloud

問題：我如何計算和碼字的各主題中的頻率是多少？我的目標是從每個主題創建「詞雲」。附註：>我有wordcloud沒有問題。從代碼， burnin <- 4000 #We do not collect this. iter <- 4000 thin <- 500 seed <-list(2017,5,63,100001,765) nstart <- 5

0熱度

1回答

get_sentiments函數中的錯誤

有沒有人在R中使用'tidytextmining'進行情感分析？ Tidytextmining 我使用R訴3.4.1和我正在以下錯誤此一段代碼。 library(tidytext) library(dplyr) get_sentiments("afinn") 錯誤 - 錯誤get_sentiments（「afinn」）：找不到函數「get_sentiments」我已經安裝了合適的包

2熱度

1回答

如何使用bigrams和trigrams使用整齊文本

我想使用tidytext同時使用bigram和trigram。我可以使用什麼代碼來查找2個和3個單詞。這是隻使用雙字母組代碼： library(tidytext) library(janeaustenr) austen_bigrams <- austen_books() %>% unnest_tokens(bigram, text, token = "ngrams", n = 2

0熱度

2回答

R中的錯誤消息：mutate_impl（.data，dots）中的錯誤：無效參數類型

我試圖使用tidytext分析一些文本並使用下面的代碼;然而，得到了一個錯誤信息： dt %>% unnest_tokens(output, input, token="ngrams", n=3) Error in mutate_impl(.data, dots) : invalid argument type 這是我對我公司的內部研發平臺得到了錯誤的消息，但是代碼在我的本地研發工作室運行

0熱度

1回答

unnest_tokens

的對面這很可能是一個愚蠢的問題，但我GOOGLE和谷歌搜索並找不到解決方案。我認爲這是因爲我不知道用我的問題來搜索的正確方法。我有一個數據框，我已經在R中轉換爲整潔的文本格式來擺脫停用詞。我現在想將那個數據框'不整潔'回到原來的格式。 unnest_tokens的反向/反向命令是什麼？編輯：這裏是我正在使用的數據的樣子。我試圖複製西爾格和羅賓遜的書Tidy Text的分析，但使用意大利歌劇的l

1熱度

1回答

轉換數據幀與字tibble算

我試圖執行基於http://tidytextmining.com/sentiment.html#the-sentiments-dataset情感分析。在執行情感分析之前，我需要將我的數據集轉換爲整潔的格式。我的數據集的形式： x <- c("test1" , "test2") y <- c("this is test text1" , "this is test text2") res <-

0熱度

1回答

帶有正面和負面情緒的tidytext單詞

我一直在處理情緒數據集，發現bing和nrc數據集包含幾個詞，既有積極的一面，也有消極的一面。 **兵 - 三個字正面和負面情緒** env_test_bing_raw <- get_sentiments("bing") %>% filter(word %in% c("envious", "enviously","enviousness")) # A tibble: 6 x 2

0熱度

2回答

刪除字符和組合字符串

我正在轉換正在從PDF文件中讀取的文本。特別是，我有一個字符向量，其中包含連字符（「 - 」），用於預製大綱，或將單詞分隔爲新行，但僅當發生時纔會出現。例如： text text text 123- 456 text text.. 我想要做的就是刪除所有hypens和toghether粘貼這些話。 text text text 123456 text text.. 我開始嘗試： li

1熱度

2回答

問題與syllabification和正則表達式

我有一個PDF文件，我正在閱讀的文本。我遇到的問題與數字之間發生的音節化有關。鏈接到github上的file。 library(pdftools) library(tidytext) library(readxl) library(dplyr) setwd("~/Automation - Official Guazzete") path <- getwd() pdf_file <