2017-02-17 54 views
0

每當我輸入任何記錄時,我想爲我的配置單元添加一個唯一值,該值不應該在整個配置單元表中重複使用。我無法找到任何解決方案或任何功能。在我的情況下,我想要使用拉丁語pig輸入蜂巢中的記錄。請幫忙。在配置單元表中添加唯一值

+0

您對插入有多少控制?你知道最大批量嗎? –

+0

@DuduMarkovitz我一次只有一個文件。 – animal

+0

任何不使用'row_number()over()'的理由? –

回答

0

HIVE不提供類似約束的RDBMS數據庫。

使用PIG腳本的建議使用方法如下。 1.加載數據 2.對數據應用DISTINCT 3.將數據存儲在某個位置 4.在相同位置創建外部配置單元表。

如果您可以使用HCATALOG,允許您將數據直接存儲在Hive表中,則步驟3和4可以結合使用。

正式文件:Link 1link 2

+0

可以請你分享鏈接嗎? – animal

+0

[1]:https://pig.apache.org/docs/r0.7.0/piglatin_ref2.html#DISTINCT [2]:https://hive.apache.org/javadocs/hcat-r0.5.0/loadstore .html –

+0

它如何適用於OP請求? –

相關問題