sequencefile

    1熱度

    1回答

    我在HDFS上的數據是序列文件格式。我使用PySpark(星火1.6),並努力實現兩件事情: 數據路徑包含在YYYY/MM/DD/HH格式的時間戳,我想帶入數據本身。我試過SparkContext.wholeTextFiles,但我認爲這可能不支持序列文件格式。 如果我想關閉一天的數據並想將日期導入數據,我該如何處理上述問題?在這種情況下,我會加載像yyyy/mm/dd/*格式的數據。 欣賞任何指

    0熱度

    1回答

    我想在HDFS(Hadoop文件系統)上保存圖像文件(如jpeg,png等)。我嘗試了兩種方式: 保存,因爲它是圖像文件(即在相同的格式)到HDFS使用put命令。完整的命令是:hadoop fs -put /home/a.jpeg /user/hadoop/。它被成功放置。 將這些圖像文件轉換爲Hadoop的Sequence File格式&然後使用put命令保存在HDFS中。 我想知道應該使用哪

    1熱度

    1回答

    我們正在消耗非常大的數據,需要儘快寫入,因爲我們使用HDFS,因此我們更願意使用它。數據幾乎沒有結構化,我們很少會對它們進行基本查詢。數據與一些字段保持一致,每行代表另一個數據。 key1=str key2=30.3 key3=longtexthere 另一個數據行: key1=3 key5=abc SequenceFile似乎是最自然的,但我無法找到如何多行存儲在一個單一的Sequenc

    1熱度

    2回答

    我有一個SequenceFile格式的HDFS文件。關鍵是Text並且該值是一個自定義的可序列化類(比如說)MyCustomClass。我想通過hadoop fs -text命令讀取此文件,但由於hadoop不知道MyCustomClass定義是什麼,因此它失敗。 我也試過hdfs dfs - text命令,但得到了相同的迴應。使用hadoop2。 有沒有一種方法可以指定類(通過一個jar例如,如

    1熱度

    1回答

    HDFS以外的其他文件系統是否支持序列文件格式?我特別感興趣的是序列文件格式是否可以用來合併和存儲文件系統上的小文件,例如, HFS +或NTFS。 任何幫助,非常感謝。

    0熱度

    1回答

    有人可以提供一個示例代碼片段來了解如何將文件追加到現有的序列文件中嗎? 下面是我以前附加到現有的序列文件OUTPUTFILE的代碼,但在讀取序列文件追加它是扔校驗和錯誤之後: 問題打開校驗文件:/用戶/ {home目錄} /桌面/採樣/ SequenceFile/OUTPUTFILE。忽略例外:java.io.EOFException的 public class AppendSequenceFil

    0熱度

    1回答

    我想比較1000個小文件(1-2 MB)的HDFS和本地文件系統的性能。如果不使用序列文件,與本地文件系統相比,HDFS讀取1000個文件的時間幾乎增加一倍。 我聽說過序列文件在這裏 - Small Files Problem in HDFS 我想顯示更好的響應時間爲HDFS檢索這些記錄比本地FS。序列文件會有幫助還是我應該尋找別的東西? (HBase的可能) 編輯:我使用的Java程序來讀取喜歡

    1熱度

    1回答

    我使用Hbase Export utility tool作爲SequenceFile將hbase表導出到HDFS中。 現在我想用一個MapReduce工作來處理這個文件: public class MapSequencefile { public static class MyMapper extends Mapper<LongWritable, Text, Text, Text>{

    2熱度

    1回答

    我們選擇文件格式來存儲我們的原始日誌,主要需求是壓縮和可拆分的。塊壓縮(以編解碼器爲準)SequenceFiles和Hadoop-LZO看起來是目前最合適的。 哪一個更高效的被Map-Reduce處理並且更容易處理整體?

    2熱度

    1回答

    是否可以在不安裝hadoop的情況下從java創建hadoop序列文件?我需要一個在本地創建序列文件的獨立Java程序。我的java程序將運行在沒有hadoop安裝的env中。