0

我是蔚藍色斑點的新手,並且有此問題。 我有一個blob塊10 + csv格式相同的文件(相同的標題等)。我想將它們結合在一起,以便Azure機器學習工作空間將它們作爲一個數據集讀取。它們是blob塊中的唯一文件,它們都是csv的。如何從不同的blob塊加入csv以供Azure機器學習讀取?

如何在blob中將這些大型csv文件連接在一起,而不必在動態增長時爲每個文件都設置ML「連接」?

+0

你有10多個獨立的塊blob,或一個塊blob?如果他們都在一個團隊(似乎是這樣),他們怎麼還沒有合併? –

+0

他們在同一個blob中,我通過C#將多個csvs上傳到同一個blob塊。但在未來,我們會將多個CSV轉儲到同一個塊,以便隨時重新訓練模型。我想知道如何動態訪問所有blob的塊並且一次使用所有的數據,而不必爲每個blob塊創建一個讀取器。 – Kat

回答

1

如果您始終將數據添加到blob的末尾,則應考慮使用append blob。這些blob專門針對此用例進行了優化,並且更易於用於僅追加場景。

這聽起來像你從你的說明,你想獲得塊blob中的所有數據。一個簡單的'獲取'blob應該得到完整的blob和所有的CSV - 在C#lib中有各種下載選項,因爲這是你所說的你使用的。對於塊blob下載,塊不重要,數據被視爲一件大事。塊更多是上傳的單位。