2
我有一些文本數據的DF,例如,基於頻率表的子集/過濾器
words <- data.frame(terms = c("qhick brown fox",
"tom dick harry",
"cats dgs",
"qhick black fox"))
我已經能夠基於包含拼寫錯誤的任何行子集:
library(qdap)
words[check_spelling(words$terms)$row,,drop=F]
但考慮到我有很多的文本數據的我只想上發生的拼寫錯誤過濾更頻繁:
> sort(which(table(which_misspelled(toString(unique(words$terms)))) > 1), decreasing = T)
qhick
2
所以我現在知道那個「qhick」是一個常見的拼寫錯誤。
我怎麼能根據這個表子集詞?那麼只返回包含「qhick」的行?
感謝您的回答並對不接受感到抱歉。實際上,我想暫時將其打開一段時間,因爲當字符串是另一個較大的單詞的一部分時,正則表達式可能會導致意外行爲,例如, 「災難性」的「貓」。 –
沒問題,另一個想法是使用'strsplit'拆分每一行,然後使用'sapply'來檢查該行中的任何元素是否匹配 –
謝謝你這樣做!我想知道是否有這樣做的「dplyr esque」方法,因爲我認爲我可以親自跟隨非正則表達式的方法,但閱讀起來很棘手。無論如何,再次感謝 –