的對面這很可能是一個愚蠢的問題,但我GOOGLE和谷歌搜索並找不到解決方案。我認爲這是因爲我不知道用我的問題來搜索的正確方法。unnest_tokens
我有一個數據框,我已經在R中轉換爲整潔的文本格式來擺脫停用詞。我現在想將那個數據框'不整潔'回到原來的格式。
unnest_tokens的反向/反向命令是什麼?
編輯:這裏是我正在使用的數據的樣子。我試圖複製西爾格和羅賓遜的書Tidy Text的分析,但使用意大利歌劇的librettos。
character = c("FIGARO", "SUSANNA", "CONTE", "CHERUBINO")
line = c("Cinque... dieci.... venti... trenta... trentasei...quarantatre", "Ora sì ch'io son contenta; sembra fatto inver per me. Guarda un po', mio caro Figaro, guarda adesso il mio cappello.", "Susanna, mi sembri agitata e confusa.", "Il Conte ieri perché trovommi sol con Barbarina, il congedo mi diede; e se la Contessina, la mia bella comare, grazia non m'intercede, io vado via, io non ti vedo più, Susanna mia!")
sample_df = data.frame(character, line)
sample_df
character line
FIGARO Cinque... dieci.... venti... trenta... trentasei...quarantatre
SUSANNA Ora sì ch'io son contenta; sembra fatto inver per me. Guarda un po', mio caro Figaro, guarda adesso il mio cappello.
CONTE Susanna, mi sembri agitata e confusa.
CHERUBINO Il Conte ieri perché trovommi sol con Barbarina, il congedo mi diede; e se la Contessina, la mia bella comare, grazia non m'intercede, io vado via, io non ti vedo più, Susanna mia!
我把它變成整潔的文本,所以我可以擺脫停止詞:
tribble <- sample_df %>%
unnest_tokens(word, line)
# Get rid of stop words
# I had to make my own list of stop words for 18th century Italian opera
itstopwords <- data_frame(text=mystopwords)
names(itstopwords)[names(itstopwords)=="text"] <- "word"
tribble2 <- tribble %>%
anti_join(itstopwords)
現在我有這樣的事情:
text word
FIGARO cinque
FIGARO dieci
FIGARO venti
FIGARO trenta
...
我想它找回來轉換爲字符名稱和相關行的格式來查看其他事物。基本上,我希望文本的格式與之前的格式相同,但要刪除停用詞。
你好,請閱讀[這](https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example)和編輯你的問題。瞭解更多關於你的數據是什麼樣的以及你做了什麼會使其他用戶能夠幫助你。 – shea