創建一個蜂巢表在延續,從這個問題How can I make a Hive table from a .csv file which has one column with fields delimiited by semicolon ;如何忽略分號;在&當我從.csv文件
一些標題/在我的csv文件出版商有「&放大器」;在他們和包含他們的行被誤讀,因爲他們過早地分裂在和號碼和每個字段的末尾分號。
我怎麼能修改此代碼:
CREATE TABLE books (ISBN STRING, Title STRING, Author STRING, Year STRING, Publisher STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY "\;";
LOAD DATA INPATH '/path/to/my/datafile' INTO TABLE books;
所以它不這樣做呢?在我的csv文件
一個例子問題行是:
0743403843;"Decipher";"Stel Pavlou";"2002";"Simon & Schuster (Trade Division)"
有了不被讀取正確的出版商列。
據我所知,我可以先手動取出csv,然後取下(& amp)。但可以告訴我如何在Hive或Hadoop的其他工具中執行此操作?
我有不同的方法,因爲這是它確定有&也在發佈列輸出(或)它的強制去除從發佈列&? –
如果&位於標題欄中,那麼標題中的標題的下一部分位於作者列中,實際作者位於年份column.etc中。它會在分號和分號&中分號而不是分號,它們表示字段的結尾。 –
我得到了你的問題,這個輸出對於上面的輸入是可以的嗎? isbn = 0743403843,title =「Decipher」,author =「Stel Pavlou」,year =「2002」,publisher =「Simon & Schuster(Trade Division)」? –