HDFS上非結構化數據行的數據存儲格式

我們正在消耗非常大的數據，需要儘快寫入，因爲我們使用HDFS，因此我們更願意使用它。數據幾乎沒有結構化，我們很少會對它們進行基本查詢。數據與一些字段保持一致，每行代表另一個數據。HDFS上非結構化數據行的數據存儲格式

key1=str key2=30.3 key3=longtexthere

另一個數據行：

key1=3 key5=abc

SequenceFile似乎是最自然的，但我無法找到如何多行存儲在一個單一的SequenceFile。

目前，在我們的臨時解決方案中，我們有多個寫入多個文本文件的寫入器。所以當需要查詢時，我們會同時讀取它們。但是，當前的文本文件包含1000行，我不認爲爲每行創建單個SequenceFile都是可行的，因此在查詢時，它會一次性存儲元數據並讀取許多太多文件。

我認爲這個問題可以通過使用HBase或Cassandra這樣的columunar數據庫來解決，但我們幾乎需要使用HDFS。我是否遺漏了SequenceFiles或我們應該使用columunar數據庫？

來源

2016-10-22 Mustafa

你有固定數量的按鍵/列嗎？ – oae

@oae不，雖然它們不是固定的，但它們很少被擴展，這意味着有時我們添加新的列，但舊數據沒有它們。 – Mustafa

所以序列文件格式是這樣的： <key, value> <key, value> <key, value> ... 其中鍵是一個WritableComparable和值是一個Writable。現在是什麼，很多人都在做 - 你可以做同樣的 - 是：

只有使用鑰匙或價值「列」
實現自定義可寫，它封裝了一組其他Writables的（稱之爲記錄，排，...）

這樣你就可以建立你想要的一切。可寫的記錄可以有一個固定的模式，就像它包含'IntWritable，Text，IntWritable，IntWritable'（取決於你的字段）。或者如果你不想支持不同的類型，你可以使用現有的ArrayWritable作爲你的'記錄'。瞭解每個文件的模式（例如，將其放入序列文件的元數據中，將允許您讀取具有不同/演變模式的文件）

因此，其大量的手工製作，但構建可以非常有效靈活的結構從來沒有使用它，但看看http://pangool.net/userguide/schemas.html，認爲他們已經建模suche一個靈活的記錄/元組架構上的序列文件頂部

底線，我認爲你可以實現你想要的序列文件。但是，我建議也看看列表文件格式，如Parquet或ORC files。這些來自他們自己的折衷，但你會有更高的壓縮率和sel有效讀取（列投影，濾波器下推）。你也不必發明模式/元組結構。

來源

2016-10-24 08:51:01 oae

HDFS上非結構化數據行的數據存儲格式

回答

相關問題