我正在使用tm包清理Twitter語料庫。但是,該軟件包無法清理表情符號。使用tm包刪除R中的圖釋
這裏有一個重複的代碼:
July4th_clean <- tm_map(July4th_clean, content_transformer(tolower))
Error in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is encircling the globes ������������������ july4thweekend July4th FourthOfJuly IndependenceDay NotAvailableOnIn' in 'utf8towcs'
有人點我在正確的方向,除去使用TM封裝的表情?
謝謝
路易斯
從你的例子中不清楚你想要消除什麼。您是否想要消除包含多個連續標點符號的子字符串,如:-)和(-_-),還是想要消除奇怪的Unicode字符(如☺和❀)? – G5W
你說得對。我認爲這是一個或類似的東西。 – Luis
我是R新手。你知道我可以如何檢查特定的推文嗎?我想象你使用[]但不知道如果功能或代碼的任何其他部分。 – Luis