Hadoop的多混合記錄

我想解析由fidonet郵件binkd產生的日誌文件，這是多和更糟糕 - 混合：幾個實例可以寫入日誌文件一個，例如：Hadoop的多混合記錄

 27 Dec 16:52:40 [2484] BEGIN, binkd/1.0a-545/Linux -iq /tmp/binkd.conf 
    + 27 Dec 16:52:40 [2484] session with 123.45.78.9 (123.45.78.9) 
    - 27 Dec 16:52:41 [2484] SYS BBSName 
    - 27 Dec 16:52:41 [2484] ZYZ First LastName 
    - 27 Dec 16:52:41 [2484] LOC City, Country 
    - 27 Dec 16:52:41 [2484] NDL 115200,TCP,BINKP 
    - 27 Dec 16:52:41 [2484] TIME Thu, 27 Dec 2012 21:53:22 +0600 
    - 27 Dec 16:52:41 [2484] VER binkd/0.9.6a-173/Win32 binkp/1.1 
    + 27 Dec 16:52:43 [2484] addr: 2:1234/[email protected] 
    - 27 Dec 16:52:43 [2484] OPT NDA CRYPT 
    + 27 Dec 16:52:43 [2484] Remote supports asymmetric ND mode 
    + 27 Dec 16:52:43 [2484] Remote requests CRYPT mode 
    - 27 Dec 16:52:43 [2484] TRF 0 0 
    *+ 27 Dec 16:52:43 [1520] done (from 2:456/[email protected], OK, S/R: 0/0 (0/0 bytes))* 
    + 27 Dec 16:52:43 [2484] Remote has 0b of mail and 0b of files for us 
    + 27 Dec 16:52:43 [2484] pwd protected session (MD5) 
    - 27 Dec 16:52:43 [2484] session in CRYPT mode 
    + 27 Dec 16:52:43 [2484] done (from 2:1234/[email protected], OK, S/R: 0/0 (0/0 bytes))

所以日誌文件不僅有多行，每行會有不可預知的行數，而且還有幾條記錄可以混在一起，就像會話1520已經在會話2484中間完成一樣。在hadoop中解析這樣一個正確的方向是什麼文件？或者我應該只是逐行解析，然後將它們以某種方式合併到記錄中，然後使用另一組作業將這些記錄寫入SQL數據庫？

謝謝。

來源

2012-12-29 pavel

Hadoop的正確方向是開發你自己的輸入格式，誰的記錄讀取器將逐行讀取輸入併產生邏輯記錄。
可以說 - 你實際上也可以在mapper中做到 - 它可能會更簡單一些。缺點是它不是用於hadoop的這種代碼的標準包裝，因此它的可重用性較差。

你提到的其他方向在我看來對於hadoop來說並不「自然」。具體來說 - 爲什麼要使用所有複雜（並且昂貴）的洗牌機器將已經掌握的幾條線連接在一起。

來源

2012-12-30 08:36:39

首先，解析文件不是你想要做的;您正試圖從數據中提取一些信息。

對於您的情況，您可以考慮多步驟MR作業，其中第一個MR作業將根據session_id（部分篩選？某些聚合？多個縮減器？）對輸入進行基本（部分）排序，然後減速器或下一個MR作業將執行實際計算。

沒有解釋你試圖從你的日誌文件中提取什麼，很難給出更明確的答案。

此外，如果您的數據很小，也許您可以在沒有MR機器的情況下處理它？

來源

2012-12-29 02:56:59

Hadoop的多混合記錄

回答

相關問題