我正在尋找使用R來清理數據庫中的一些文本字符串。數據庫存儲完整的HTML標籤。不幸的是,由於數據庫的限制,每個字符串在數據庫中被分成多個片段。我想我可以弄清楚如何使用正則表達式和其他帖子的幫助去除html標籤,但我不希望這些解決方案能夠工作,除非我將這些片段連接在一起(打開/關閉html標籤可以跨越記錄在數據框中)。下面是一些示例數據:R - 從數據框連接字符串並刪除html標記
現有數據幀
Record_nbr fragment Comments
1 1 "The quick brown"
1 2 "fox jumped over"
1 3 "the lazy dog."
2 1 "New Record."
希望的輸出數據幀
Record_nbr fragment Comments
1 3 "The quick brown fox jumped over the lazy dog."
2 2 "New Record."
數據:
dat <- read.table(text='Record_nbr fragment Comments
1 1 "The quick brown"
1 2 "fox jumped over"
1 3 "the lazy dog."
2 1 "New Record."', header=TRUE)
謝謝大家!這似乎是竅門 – rascale
'grouped < - aggregate(dataframe [[12]],dataframe [1:9],paste,collapse =「」)' – rascale
like'aggregate(dat [-1],dat [1] ,粘貼)'這個例子 –