1
我目前工作的一個項目,以創建Azure中的大數據架構。爲了瞭解Azure的作品中,我創建了一個數據工廠和Blob存儲,併成立了一個字一個流水線上的按需HDInsight系統計算Hadoop的過程。的Hadoop在Azure上,我可以使用I/O不同的Blob存儲容器?
這是管道JSON文件:
{
"name": "MRSamplePipeline5",
"properties": {
"description": "Sample Pipeline to Run the Word Count Program",
"activities": [
{
"type": "HDInsightMapReduce",
"typeProperties": {
"className": "wordcount",
"jarFilePath": "executables/hadoop-example.jar",
"jarLinkedService": "AzureStorageLinkedService",
"arguments": [
"/davinci.txt",
"/WordCountOutput1"
]
},
"outputs": [
{
"name": "MROutput4"
}
],
"policy": {
"timeout": "01:00:00",
"concurrency": 1,
"retry": 3
},
"scheduler": {
"frequency": "Minute",
"interval": 15
},
"name": "MRActivity",
"linkedServiceName": "HDInsightOnDemandLinkedService"
}
],
"start": "2017-07-24T00:00:00Z",
"end": "2017-07-24T00:00:00Z",
"isPaused": false,
"hubName": "testazuredatafact_hub",
"pipelineMode": "OneTime",
"expirationTime": "3.00:00:00"
}
}
它的工作,即使輸出是一個名爲 「WordCountOutput1 /一部分-R-00000」 的文件。
我的問題是:如何將輸入文件(davinci.txt)和輸出文件(Output1)定義在我的blob存儲的不同容器(例如「exampledata」)中?