2014-02-25 35 views
1

在我的POC中,我試圖使用豬腳本實現ETL數據流(星型模式),正如你在加載到事實表之前所知的那樣,我想加載維度。在維度中,我需要從源(csv文件)只加載新的記錄,我的意思是在維度(sql服務器)不存在的記錄。豬中的所有連接(傾斜,複製&合併連接)都嘗試匹配現有記錄並僅生成匹配的記錄。你能告訴我如何將不匹配的記錄作爲輸出來加載到我的維度?使用豬腳本查找不匹配的記錄

感謝 Selvam

回答

1

做一個左外連接源(CSV文件)與尺寸(SQL Server)的表。將聯接列爲空的結果記錄是新記錄。然後過濾掉連接列值爲空的記錄。

+0

謝謝Hussain :-)我試着左外部得到下面的錯誤 – user3350280

+0

錯誤1066:無法打開別名Y的迭代器。後端錯誤:標量在輸出中有多個行。 – user3350280

+0

當您從連接關係中引用列時,請使用「::」運算符來解析列而不是使用「。」。例如。 JOIN_RELATION :: col_name請閱讀https://issues.apache.org/jira/browse/PIG-2134以獲得詳細信息 –