我有一個用例,我需要使用Hive實現基於SQL的數據倉庫活動。基於Hive的數據倉庫任務 - 添加序列號到記錄
該軟件會生成一堆csv文件。當它轉換爲SQL表時,會爲每個csv文件分配一個名爲session的唯一標識並將其加載到SQL表中。比方說,我在csv文件中有3列。我將在SQL表中有四列,其中第一列代表會話。這意味着存儲在第一個csv文件中的值將被寫入SQL表中,其中sessios id爲'1',第二個csv文件中的值將被附加到會話標識爲'2'的SQL表中,依此類推。
在蜂房,
我HDFS中存儲的目錄這些CSV文件,並希望創建一個配置單元表表示會話ID的附加列。我不知道我該怎麼做。任何幫助或線索將不勝感激。下面
您是否可以創建沒有額外列的表?計算機如何知道id應該是什麼?你有沒有考慮過在讀取文件時使用他的標記文件標記(所以不要動態地添加一個標識符,而是將文件的名稱作爲列添加) –
這是一個很好的建議,即添加文件的名稱而不是ID。但是,當我編寫我的HQL查詢時,我從多個表中選取了幾個值。在這種情況下,我看到彈出一個錯誤,即在多個表中找到了INPUT__FILE__NAME。任何解決方法在這裏? – Bala
我修好了。這在我的查詢中是一個簡單的錯誤。我在查詢中錯過了DISTINCT。謝謝。我仍然需要將會話存儲在一個單獨的表格中,以跟蹤哪個會話正在處理,哪個不會。我會在單獨的桌子的幫助下做到這一點。 – Bala