Hadoop - 基本+流媒體指導要求

我已經在Apache Hadoop 0.2.x版本中編寫了一些MapReduce程序 - 簡單地說，我是一個初學者。Hadoop - 基本+流媒體指導要求

我試圖處理大量（超過10GB）使用一種稱爲軟件在Linux機器上SegY文件SeismicUnix

，我在Linux機器上運行的基本命令列：

//Read SegY file and convert to custom format (.su file) 

segyread tape=input.sgy verbose=1 endian=0 | segyclean >input.su 


//PIPE-SEPARATE the processing commands viz. suhilb and suaccor 
suhilb | suaccor ntout=1001 sym=0 <Noise1_10.su> output.su 


//Create headers for converting back to SegY format 
segyhdrs < output.su bfile=binary hfile=header 


//Create the final output file in SegY format 
segywrite <output.su tape=output.segy buff=1 conv=1 bfile=binary hfile=header

這些步驟在單臺計算機上花費很長時間，因此，已經設置了Apache Hadoop集羣來加快速度。

按我思維過程：

拆分源SEGY文件到羣集（使得一個大文件的一個小塊可用於處理的每個節點上）
可能地，使用Hadoop流，主叫SeismicUnix命令以處理每個節點上小塊
聚合經處理的文件合併成一個大的SEGY文件，該文件將成爲輸出

技術查詢/挑戰：

源SEGY文件需要被第一加載到HDFS之前其可用以進行處理的不同的節點。我該怎麼做 - 創建一個SequenceFile或其他東西？ SeismicUnix讀取SegY文件，將其轉換爲自定義格式，然後對其進行處理！
如第二個命令所示，不同的操作（命令）按照它們希望執行的順序傳送，例如suhilb | suaccor。現在，可以在此發生在一個映射器或我需要創建一個映射器suhilb和飼料它的輸出suaccor - 非常困惑在這裏
假設處理完成，現在output.segy創建（每個節點都是這個假設正確???），我如何合併這些文件（這裏完全無能爲力）？

我讀了一些關於谷歌的FlumeJava認爲它是解決方案，但我想堅持Hadoop，即現在沒有圖書館的方法。

如果我沒有深入淺出地詢問我的疑問 - 實際上我無法清楚地瞭解設計/代碼！

來源

2013-01-15 Kaliyug Antagonist

建議要經過'的Hadoop - 權威Guide'書 - 你的混亂將被清除:) –

@Praveen 我經歷的書，但我沒有收到有關自定義格式+流媒體的想法在我的情況。 –

我很想知道你是否有進一步的這個問題？ – mortenbpost

在點對應回答你的疑問，

如果你知道什麼自定義格式的軟件使用轉換SEGY文件，可以使用相同的格式存儲在HDFS文件。要加載到HDFS你應該看看像Sqoop這樣的開源工具。
您可以按順序使用映射器進行各種操作。因此，不同的映射器會並行地在不同的輸入塊上執行操作。
要合併輸出文件嘗試使用基於鍵這種種的output.segy減速。您使用的示例鍵可以是文件的名稱。因此，各種輸出文件的所有數據都被路由到一個reducer，從而生成一個輸出文件-r-000文件。

來源

2013-01-15 10:18:26 RadAl

請確認我是否已正確解釋您的答案： 1.雖然我知道自定義格式，但它會隨着處理軟件的變化而改變，因此我打算將源SegY文件存儲在羣集上，並讓處理軟件開啓每個節點都從HDFS獲取其塊，然後轉換爲其自己的格式。我需要考慮創建一個SequenceFile來上傳一個源文件嗎？ 2.所以一個簡單的map（...）方法和一個簡單的reduce（...）方法就足夠了，對吧？ 3.直到我不清楚如何存儲源SegY，我無法弄清楚如何reconstr。從零件文件 –

Hadoop - 基本+流媒體指導要求

回答

相關問題