2016-09-23 79 views
0

爲天青表機制的文檔導入數據模塊可以在這裏找到:https://msdn.microsoft.com/en-us/library/azure/mt674699如何使用ODATA查詢從Azure表存儲導入Azure機器學習工作室?

在那裏它提到:

導入數據模塊不作爲數據正被讀支持篩選。數據源的讀取是個例外,有時您可以將過濾條件指定爲供稿網址的一部分。

我們的表格存儲中有大量數據,每次運行實驗時都不可能重新下載整個數據集。我知道可以選擇緩存數據,但是不斷插入新數據,並且我們希望能夠在實驗運行時使用新數據。

我們可以使用導入數據模塊替代使用ODATA查詢來獲取表存儲數據嗎?

回答

1

沒有增量更新數據集的通用方法。

但是,這取決於你想用數據做什麼,有添加新的數據不同的選擇:

的添加行的模塊有效連接兩個數據集。因此,您可以在左側輸入中使用舊的緩存數據集,並在右側輸入中添加新數據。這樣你只需要讀入新的數據。然而,你將不得不創建一些複雜的邏輯來確定哪些行是新舊的,然後在Azure ML之外進行維護。

您可以根據表存儲創建一個OData提要,以啓用篩選並以此方式獲取新數據。請注意,目前只支持公共提要。如上所述,您將不得不使用Join或Add Rows來重新組合舊數據和新數據。

您可能還會考慮使用table names,分區和行鍵分塊數據的方法。

如果您正在重新訓練模型並且想要更新功能統計信息,Learning with Counts模塊支持基於計數功能的增量更新。