在我的HDFS中,我將進行xml處理。即處理一個XML文件並提取2個節點。並且這將是我的x和y來繪製一個圖。可視化來自hadoop的xml數據
我怎樣才能做到從HDFS這.Generating圖output.I要使用快速miner.how我可以這樣做的任何想法...
否則後果自負
有沒有辦法想象我hadoop數據
在我的HDFS中,我將進行xml處理。即處理一個XML文件並提取2個節點。並且這將是我的x和y來繪製一個圖。可視化來自hadoop的xml數據
我怎樣才能做到從HDFS這.Generating圖output.I要使用快速miner.how我可以這樣做的任何想法...
否則後果自負
有沒有辦法想象我hadoop數據
HDFS的工作方式是將文件分割成預定義大小的塊。它就像做一個
split -b 64M file.xml
並採取每個塊,並將其保存到salve datanode。現在,如果您的HDFS的塊大小爲64MB,文件大小爲1 GB,則您的文件將被拆分爲16個塊並保存在不同的位置。所以mapreduce作業將無法從xml文件塊中理解,因爲xml的結構與簡單的csv或tsv文件不同。所以就我所見,如果hdfs的塊大小超過hdfs,你就無法通過hdfs處理一個xml文件。
我正在使用xmlinputformat – 2013-04-15 03:07:54
我有幾組x和y values.with這是我能夠做rapidminer可視化和如何做呢??/ – 2013-04-15 03:24:43
對不起,我必須仍然生活在古代時代,之前從未聽說過mapreduce的xml處理或任何執行它的框架。 – FUD 2013-04-15 03:30:53
xml文件保存在hdfs中? – FUD 2013-04-10 03:47:36
是的。他們保存在hdfs – 2013-04-10 04:11:34