1
我正在嘗試使用數據管道來運行Spark應用程序。我如何在我的Spark應用程序中訪問我爲EmrActivity指定的輸入/輸出(S3DataNode)?EmrActivity的輸入/輸出 - AWS數據管道
我的問題是與此類似 - https://forums.aws.amazon.com/message.jspa?messageID=507877
早些時候,我用來傳遞輸入和輸出參數的步驟星火應用。
謝謝
我正在嘗試使用數據管道來運行Spark應用程序。我如何在我的Spark應用程序中訪問我爲EmrActivity指定的輸入/輸出(S3DataNode)?EmrActivity的輸入/輸出 - AWS數據管道
我的問題是與此類似 - https://forums.aws.amazon.com/message.jspa?messageID=507877
早些時候,我用來傳遞輸入和輸出參數的步驟星火應用。
謝謝
我跑過同一個問題。這方面的文檔非常有限。這是我的理解:
您指定EmrActivity的input
和output
。這將創建數據節點和活動之間的依賴關係。
在EmrActivity,可以參考輸入源是這樣的:#{input.directoryPath},#{output.directoryPath}
實施例:
...
{
"name": "Input Data Node",
"id": "inputDataNode",
"type": "S3DataNode",
"directoryPath": "s3://my/raw/data/path"
},
{
"name": "transform",
"id": "transform",
"type": "EmrActivity",
"step": [
"s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,s3://my/transform/script.sh,#{input.directoryPath},#{output.directoryPath}"
],
"runsOn": {
"ref": "emrcluster"
},
"input": {
"ref": "inputDataNode"
},
"output": {
"ref": "outputDataNode"
}
},
{
"name": "Output Data Node",
"id": "outputDataNode",
"type": "S3DataNode",
"directoryPath": "s3://path/to/output/"
},
...