2017-10-10 68 views
0

所以我試圖加載一個CSV文件直線進行一些簡單的分析,並開始使用hadoop套件。我使用下面的命令 CREATE EXTERNAL TABLE IF NOT EXISTS babies( PseudoID_voorkeur INT, OpnameID INT, Specialisme VARCHAR(32), Opnamecategorie VARCHAR(32), OpnamecategorieOmschrijving VARCHAR(32), OpnametypeID VARCHAR(32), OpnametypeOmschrijving VARCHAR(32), OpnamesubtypeID VARCHAR(32), BehandelcategorieID_OPN VARCHAR(32), BehandelcategorieOmschr_OPN VARCHAR(32), BehandelcodeID VARCHAR(32), BehandelcodeOmschrijving VARCHAR(32), OpnamelocatieID VARCHAR(32), OpnamelocatieOmschrijving VARCHAR(32), AfdelingID_OPN VARCHAR(32), AfdelingOmschrijving_OPN VARCHAR(32), Behandelaar VARCHAR(32), Aanmelder VARCHAR(32), HerkomstID VARCHAR(32), HerkomstOmschrijving VARCHAR(32), Spoed_OPN INT, ScreeningstatusID_OPN VARCHAR(32), ScreeningstatusOmschrijving_OPN VARCHAR(32), OpnamestatusID_OPN INT, OpnamestatusOmschrijving_OPN VARCHAR(32), EersteOpname_OPN INT, GebruikOK_OPN INT, GewensteTermijn_OPN VARCHAR(32), Inschrijfdatum_OPN STRING, Wachtlijstdatum_OPN STRING, UitersteDatum_OPN STRING, GeplandeOpnamedatum_OPN STRING, GeplandeOpnametijd_OPN VARCHAR(32), GeplandeOntslagdatum_OPN STRING, GeplandeOntslagtijd_OPN VARCHAR(32), Oproepdatum_OPN STRING, Opnamedatum_OPN STRING, Opnametijd_OPN VARCHAR(32), Ontslagdatum_OPN STRING, Ontslagtijd_OPN VARCHAR(32), Annuleringsdatum_OPN STRING, Factureringsdatum_OPN STRING, Mutatiedatum_OPN STRING, Mutatietijd_OPN VARCHAR(32), VerwachteOpnameduur_OPN VARCHAR(32), BestemmingID VARCHAR(32), BestemmingOmschrijving VARCHAR(32), PseudoID_voorkeur1 INT, Aanvraagnummer INT, Broncode VARCHAR(32), Labgroep_naam VARCHAR(32), Labgroep_code INT, Afnamedatum STRING, Afnametijd VARCHAR(32), Afdeling VARCHAR(32), Aanvrager VARCHAR(32), Bepaling VARCHAR(32), Bepaling_omschrijving VARCHAR(32), Bepaling_materiaal VARCHAR(32), Uitslag_waarde VARCHAR(32), Uitslag_eenheid VARCHAR(32), Uitslag_grenswaarde_onder DOUBLE, Uitslag_grenswaarde_boven DOUBLE, Uitslag_grenswaarde_vlag VARCHAR(32), Uitslag_status VARCHAR(32), Zenddatum STRING, Zendtijd VARCHAR(32))ROW FORMAT DELIMITED FIELDS TERMINATED BY "/073" LINES TERMINATED BY '\n' STORED AS TEXTFILE;直線不加載CSV文件

load data inpath '/user/cloudera/output/clean/neo.csv' overwrite into table babies;

當嘗試,我得到0行處理見代碼剪斷作爲輸出: Loading data to table default.babies Table default.babies stats: [numFiles=1, numRows=0, totalSize=738077097, rawDataSize=0] OK No rows affected (2.564 seconds)

有誰知道如何解決這個問題? CSV文件分開; (其中/ 073代表和行與行結束打破

+0

你可以把HDFS的CSV,然後進行外部使用'L的表在它上面OCATION'選項 –

回答

0

正如我可以看到,該文件是在HDFS已經存在,添加以下在創建外部表

LOCATION「/用戶/ Cloudera公司/輸出/清潔/」

在這種情況下沒有必要的 'LOAD DATA INPATH',你可以直接查詢該表。