2015-09-29 251 views
1

我是hadoop的新手,有人能告訴我如何上傳數百萬條記錄到hadoop嗎?我可以用蜂房做到這一點嗎?我可以在哪裏看到我的Hadoop記錄?帶有數百萬條記錄的Hadoop後端插入

到目前爲止,我已經使用hive創建了hadoop數據庫,並且正在使用localhost 50070訪問它。但是我無法從終端上將數據從csv文件加載到hadoop。由於這是給我的錯誤:

FAILED: Error in semantic analysis: Line 2:0 Invalid path ''/user/local/hadoop/share/hadoop/hdfs'': No files matching path hdfs://localhost:54310/usr/local/hadoop/share/hadoop/hdfs

EROOR IN THE TERMINAL:

任何人都可以給我建議一些方法來解決這個問題?

回答

1

我想最初的數據是在本地文件系統中。

因此,一個簡單的工作流程可能是:從本地加載數據到hadoop文件系統(HDFS),在其上創建一個配置單元表,然後將數據加載到配置單元表中。

步驟1:

// put in HDFS 
$~ hadoop fs -put /local_path/file_pattern* /path/to/your/HDFS_directory 
// check files 
$~ hadoop fs -ls /path/to/your/HDFS_directory 

步驟2:

CREATE EXTERNAL TABLE if not exists mytable (
Year int, 
name string 
) 
row format delimited 
fields terminated by ',' 
lines terminated by '\n' 
stored as TEXTFILE; 

//顯示錶結構

describe mytable; 

步驟3:

Load data local INPATH '/path/to/your/HDFS_directory' 
OVERWRITE into TABLE mytable; 

//簡單蜂巢語句取前10條記錄

SELECT * FROM mytable limit 10;