我試圖在大型數據集中查找字符模式(單詞部分)的頻率。r文本挖掘:查找字符模式的頻率
例如,我有一個CSV文件中的以下列表:
- applestrawberrylime
- applegrapelime
- pineapplemangoguava
- kiwiguava
- grapeapple
- mixedberry
- kiwiguavapineapple
- limemixedberry
有沒有辦法找到所有的字符組合的頻率是多少?像:
- appleberry
- 番石榴
- applestrawberry
- kiwiguava
- grapeapple
- 稻草
- 應用
- AP
- 假髮
- MEM
- 去
更新:這是我在我的數據中尋找長度爲三的所有字符模式的頻率:
threecombo <- do.call(paste0,expand.grid(rep(list(c('a', 'b', 'c', 'd','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z')), 3)))
threecompare<-sapply(threecombo, function(x) length(grep(x, myData)))
代碼工作我希望它的方式,我想重複上述步驟以獲得更長的字符長度(4,5,6等),但需要一段時間才能運行。有沒有更好的方法來做到這一點?
歡迎StackOverflow的匹配單字組DFM到個別水果單詞的所有排列卦!你的問題很有趣,但很難回答。當有明確的問題時,真的這個網站會更好。在你的情況下,你可能想要提供一個鏈接到一個語料庫,然後顯示一些你已經嘗試使用的代碼,然後顯示你使用該代碼的問題。有關提示,請參閱http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example! –
謝謝我用我的代碼迄今爲止取得的進展更新了我的問題 – user3709049