2016-03-07 53 views
5

我在Azure「數據工廠」中設置管道,用於從存儲中獲取平面文件並將它們加載到Azure SQL DB中的表中。瞭解Azure數據工廠管道中的開始和結束時間

此管道的模板指定我需要一個開始和結束時間,其中the tutorial表示設置爲1天。

我想了解這一點。如果它是Linux中的CRON任務或Windows Server中的計劃任務,那麼我只是簡單地告訴它何時開始(即每天早上6點),並且需要很長時間才能完成。

這導致我的幾個相關問題:

  • 爲什麼我需要指定的結束時間?
  • 如果我不知道運行需要多長時間會怎樣?
  • 如果我將來設置得太遠,是否會冒數據管道未能及時完成的​​風險?
  • 如果我設置得太快,管道是否會中斷?
  • 爲什麼硬編碼的日期,而不是一個頻率(即它說,使用這種格式 - 「2014-10-14T16:32:41Z」)

我發現a prior question它揭示了一點說明如何做頻率而不是硬編碼的日期,但是我的問題仍然沒有得到解決。

回答

4

如示例所示,1天計劃只是一個示例,用於突出顯示如果頻率設置爲每小時1天的情況下您期望24個活動窗口的概念。

爲什麼我需要指定結束時間?

如果您希望可以使管道無限期運行,則不必指定結束時間。但是,您可能有商業上的理由來設定結束時間,例如與每年的商業週期一致。總體管道開始和結束時間適用於其中的活動收集。活動將按照您設置的頻率(小時,每天等)運行,以確定數據集的活動和可用性。您還可以設置活動的開始時間,或者設置活動的開始時間,或者抵消或延遲它們(例如,如果您想要今天處理昨天的數據),或者設置過去的開始日期以回填數據。

爲什麼它被硬編碼爲日期而不是頻率?

流水線開始和結束是日期而不是頻率的原因是因爲它是流水線活動的整個日期間隔,並且單個處理活動處理它們運行的​​頻率和時間。

如果我不知道需要多長時間才能運行該怎麼辦?

一旦活動開始,他們將運行完成。如果他們超過了結束日期,管道將無法啓動新的活動。

如果我將來設置得太遠,是否會冒數據管道無法及時完成的​​風險?

不,及時完成只與您的羣集大小,數據量和併發設置有關。

如果我設置得太快,管道是否會中斷?

見上面

我們提供這種計劃的複雜性,讓您可以在組織協調多種服務,同時讓ADF管理雲資源,而不是僅僅踢了一個cron作業更加靈活。在我們的文檔中有更多關於調度的細微信息https://azure.microsoft.com/en-us/documentation/articles/data-factory-scheduling-and-execution/

+0

嗨@Sonia,有關如何更改數據工廠中的時區的任何想法?它目前基於UTC。 – Ariox66

+1

我認爲這裏缺少的關鍵是:當你指定開始和結束時間和時間表時,它會預先生成一個大的「時間片」列表。所以如果你每天的日程安排爲3年,它將產生3 X 365時間片條目。你可以去處理那些特定的時間片。如果您想在過去運行帶'timeslice參數'的作業,您會發現它是時間片並運行它。如果你想在未來運行一個來測試它...運氣不好我無法得到這個工作(雖然我還在學習) –

0

爲什麼我需要指定結束時間?

在ADF1中,如果您指定了開始時間,則必須指定結束時間。 如果您沒有指定開始和結束時間,那很好,您將能夠部署管道,但管道中的活動不會觸發。

相關問題