帶有數百萬條記錄的Hadoop後端插入

我是hadoop的新手，有人能告訴我如何上傳數百萬條記錄到hadoop嗎？我可以用蜂房做到這一點嗎？我可以在哪裏看到我的Hadoop記錄？帶有數百萬條記錄的Hadoop後端插入

到目前爲止，我已經使用hive創建了hadoop數據庫，並且正在使用localhost 50070訪問它。但是我無法從終端上將數據從csv文件加載到hadoop。由於這是給我的錯誤：

FAILED: Error in semantic analysis: Line 2:0 Invalid path ''/user/local/hadoop/share/hadoop/hdfs'': No files matching path hdfs://localhost:54310/usr/local/hadoop/share/hadoop/hdfs

任何人都可以給我建議一些方法來解決這個問題？

來源

2015-09-29 Harish Chauhan

我想最初的數據是在本地文件系統中。

因此，一個簡單的工作流程可能是：從本地加載數據到hadoop文件系統（HDFS），在其上創建一個配置單元表，然後將數據加載到配置單元表中。

步驟1：

// put in HDFS 
$~ hadoop fs -put /local_path/file_pattern* /path/to/your/HDFS_directory 
// check files 
$~ hadoop fs -ls /path/to/your/HDFS_directory

步驟2：

CREATE EXTERNAL TABLE if not exists mytable (
Year int, 
name string 
) 
row format delimited 
fields terminated by ',' 
lines terminated by '\n' 
stored as TEXTFILE;

//顯示錶結構

describe mytable;

步驟3：

Load data local INPATH '/path/to/your/HDFS_directory' 
OVERWRITE into TABLE mytable;

//簡單蜂巢語句取前10條記錄

SELECT * FROM mytable limit 10;

來源

2015-09-29 12:15:31

您應該使用LOAD DATA LOCAL INPATH <local-file-path>將文件從本地目錄加載到Hive表。

如果你不指定LOCAL，那麼load命令將假定查找從HDFS位置到加載的給定文件路徑。

請參考以下鏈接， https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML#LanguageManualDML-Loadingfilesintotables

來源

2015-09-29 04:49:46 sureshsiva

帶有數百萬條記錄的Hadoop後端插入

回答

相關問題