2014-09-02 56 views
0

從R讀取駐留在Hadoop中的csv時是否可以使用選項「Header = TRUE」? csv包含第一行列標題。我已經使用將R代碼R Hadoop Header = TRUE

預測< - from.dfs( 「HDFS://3.48.34.16:8020 /用戶/ lg337358/Predictor.csv」,make.input.format(格式= 「CSV」, )

它讀取文件正常。但列標題是「預測」中的第一行,而我希望它們在「colnames(預測)」中。我試圖選項

預測< - from.dfs( 「HDFS://3.48.34.16:8020 /用戶/ lg337358/Predictor.csv」,make.input.format(格式= 「CSV」,首標= TRUE,sep =「,」))

但是,這是給錯誤。

+0

我正的誤差是「錯誤在值[[3L]](COND): 形式參數‘標題 – 2014-09-02 21:45:22

+0

一種解決方法如下找到’由多個實際參數匹配的」。但在閱讀文件時仍然很樂意使用「header = TRUE」。 predictor < - from.dfs(「hdfs://3.48.34.16:8020/user/lg337358/Predictor.csv」,make.input.format(format =「csv」,sep =「,」)) predictor < - as.matrix(predictor $ val) colnames(predictor)< - predictor [1,] predictor < - predictor [-1,] – 2014-09-03 21:09:06

回答

1

我也有同樣的錯誤。我使用下面的代碼來獲取標題。閱讀hdfs文件後,第一行可能是列名。

df<-read.hdfs("/usr/hadoop/df.csv")#read the hdfs file 
df_names<-df[1,] #extract the header 
df<-df[-1,] # delete the row which contains the header from the data 
colnames(df)<-df_names #set the column names(header) of the data