我有幾十個全天空地圖,二進制格式(FITS)每個大約有600MB。在全天空地圖上處理源處理hadoop
對於每張天空地圖,我已經有了幾千個來源的位置目錄,即恆星,星系,無線電源。
對於每個源,我想:
- 打開整個天空地圖
- 提取相關的部分,通常是20MB以下
- 對它們運行的一些統計數據
- 聚集輸出到目錄
我想運行hadoop
,可能使用python
通過接口streaming
進行並行處理。
我覺得輸入到映射器應該是目錄中的每個記錄, 那麼python
映射器可以打開全天空圖,做加工和打印輸出到stdout
。
- 這是一個合理的方法嗎?
- 如果是這樣,我需要能夠配置
hadoop
,以便將完整天空圖本地複製到正在處理其來源之一的節點。我怎樣才能做到這一點? - 此外,將輸入數據提供給
hadoop
的最佳方法是什麼?對於每個源我有一個參考全天空地圖,經度和緯度