0
我正在處理一個希望在hadoop mapreduce程序中處理圖像(最終部署到亞馬遜的彈性mapreduce)的項目。該過程的輸入將是所有文件的列表,每個文件都附帶一些額外的數據(左下角的緯度/長度位置 - 這些是航空照片)Hadoop:在Python代碼中處理圖像文件
實際處理需要發生在Python代碼,以便我們可以利用Python圖像庫。我可以找到的所有Python流式處理示例都使用stdin和處理文本輸入。我可以通過stdin將圖像數據發送給Python嗎?如果是這樣,怎麼樣?
我用Java編寫了一個Mapper類,它獲取文件列表並將名稱,額外數據和二進制內容保存到序列文件中。我在想,也許我需要編寫一個定製的Java映射器,它接收序列文件並將其傳送給Python。這是正確的方法嗎?如果是這樣,那麼Java應該怎樣把圖像傳出來,並用Python來讀取它們呢?
如果不是很明顯,我對Java或Python並不熟悉,所以它也有可能讓我咬牙切齒,因爲我對這兩種語言都有所介紹......