0
嗨我從上游獲取數據爲csv文件並在其上創建Hive表。現在,一些csv文件包含幾行/列的控制M字符。對於例如3列數據被示出在下面的控制字符M如何刪除配置單元表中的^ M行?
abc^M,def,ghi
jkl,mno^M,pqr
現在我將數據加載到使用LOAD DATA INPATH '/path/to/file' INTO TABLE mytable
由於上述數據配置單元表包含沒控制M蜂巢認爲換行和斷開該行進入新的行,以便在上面配置單元數據表返回4行數而不是2.我嘗試使用regex_replace(mycol,'[\x01-\x1A]',"\\")
來替換所有控制字符,包括控制M用\和它的作品,但它留下\符號爲例如abc^M
將變成abc\
我不想更改數據有沒有更好的方法來做到這一點?我不確定在這種情況下,即使自定義serde也會幫忙。請指導。我是Hive新手。提前致謝。
爲什麼不使用'regex_replace(mycol」 [\ x01- \ X1A]」, '')' – Ambrish