0
我需要從我的EMR Spark作業中調用外部進程。我看到rdd.pipe
將允許我將RDD傳遞給進程。 (順便說一句,每個RDD有一個進程,還是每個元素有一個進程?)。RDD到in.file到外部進程out.file到RDD
但是,我的外部進程需要一個文件名作爲輸入並生成一個文件作爲輸出。
如何調用此外部進程,然後將輸出文件加載爲RDD?
我需要從我的EMR Spark作業中調用外部進程。我看到rdd.pipe
將允許我將RDD傳遞給進程。 (順便說一句,每個RDD有一個進程,還是每個元素有一個進程?)。RDD到in.file到外部進程out.file到RDD
但是,我的外部進程需要一個文件名作爲輸入並生成一個文件作爲輸出。
如何調用此外部進程,然後將輸出文件加載爲RDD?
是每個RDD一個進程還是每個元素一個進程?
都沒有。這是每個分區的進程。
進程需要一個文件名作爲輸入並生成一個文件作爲輸出。如何才能
最簡單的辦法是寫一個簡單的包裝,其寫入隨機生成的路徑,調用程序,讀取文件,並寫入到stdout,這是幾乎所有的東西pipe
左右。除非您寫入分佈式文件系統,否則您將無法檢索輸出。