2017-10-05 49 views
0

在我的Azure流式分析作業中,我嘗試對地址進行地理定位。我使用的參考大約是165 MB。參考數據的斑點被限制在每100 MB,但documentation狀態以下:大型參考數據

流分析具有每斑點100 MB但作業限制可以通過使用路徑圖案屬性處理多個參考斑點。

我該如何去利用這個優勢?我已將數據分成兩個85 MB文件,分別爲iplookup1.csviplookup2.csv,但似乎無法弄清楚如何獲取參考數據輸入以同時選取大數據集。

作爲一個製造缺口,我可能會嘗試創建兩個參考數據輸入,然後在這兩個參數之間進行左連接並拉取非空值。

回答

0

按我的理解,以供參考的數據,你可以指定的路徑模式屬性靜態數據(例如products/products.csv),或者您可以指定這些變量({date}{time})像products/{date}/{time}/products.csv的一個或多個實例刷新參考數據。

根據您的場景,我假定您需要創建兩個參考數據輸入,然後您可以利用Union操作將兩個或更多個查詢的結果合併爲一個結果。對於參考數據JOIN,您可以按照here

UPDATE:

SELECT I1.propertyName, ip01.propertyName 
    FROM Input1 I1 
    JOIN iplookup1 ip01 
    ON I1.address= ip01.address 

UNION 

SELECT I1.propertyName, ip02.propertyName 
    FROM Input1 I1 
    JOIN iplookup2 ip02 
    ON I1.address= ip02.address 
+0

偉大的建議!我試了一下,但是收到一個錯誤,指出'參考數據不支持Union' –

+0

我用示例查詢更新了我的答案,您可以參考它。 –