我正在使用tidytext
(和tidyverse
)分析一些文本數據(如Tidy Text Mining with R)。用純文本輸入的純文本輸入的簡單部分標記
我輸入的文本文件,myfile.txt
,看起來是這樣的:
# Section 1 Name
Lorem ipsum dolor
sit amet ... (et cetera)
# Section 2 Name
<multiple lines here again>
與60層左右的部分。
我想生成一個列section_name
與字符串"Category 1 Name"
或"Category 2 Name"
作爲相應的行的值。例如,我有
library(tidyverse)
library(tidytext)
library(stringr)
fname <- "myfile.txt"
all_text <- readLines(fname)
all_lines <- tibble(text = all_text)
tidiedtext <- all_lines %>%
mutate(linenumber = row_number(),
section_id = cumsum(str_detect(text, regex("^#", ignore_case = TRUE)))) %>%
filter(!str_detect(text, regex("^#"))) %>%
ungroup()
這增加了一列中tidiedtext
對於每行相應的節號。
是否可以添加一行到調用mutate()
添加這樣的列?還是有另一種方法我應該使用?
謝謝!這幾乎是我正在尋找的。 – weinerjm