0
我有一個包含twitter數據(只有1個文件)的txt文件。我使用streamR和parseTweets函數將它加載到R中。我需要對這些數據進行Kmeans聚類。首先,我需要清理和準備數據,但數據是數字的混合體,它不允許我這樣做:(例如)內容轉換。
如何擺脫這些數據中所有不需要的字符?我只需要純文本。無數字,特殊字符等Kmeans聚類和文本挖掘在R
*library(streamR)
install.packages("RCurl")
install.packages("bitops")
install.packages("rjson")
library(bitops)
library(RCurl)
library(rjson)
library(NLP)
library(tm)
library(SnowballC)
library(XML)
tweets.df<-parseTweets('tweetsStream.txt', simplify = FALSE);
tweets.df<-tm_map(tweets.df,content_transformer(tolower));
Error in UseMethod("tm_map", x) :
no applicable method for 'tm_map' applied to an object of class "data.frame"*