sequencefile

    0熱度

    2回答

    我確實有很多圖像文件,需要將它們存儲在HDFS中,爲了避免小文件問題,我計劃使用序列文件存儲我的圖像文件。 我的問題是,我需要創建一個MapReduce程序,只處理這些文件的選擇,我不認爲從SequenceFile中讀取所有圖像內容不是一個好主意,如果我只打算處理其中的一些,還可以添加更多的圖像,如果我爲每一組圖像創建一個新的SequenceFile,我如何知道哪個SequenceFile包含我需

    0熱度

    2回答

    我試圖將一些文本文件轉換爲mahout序列文件。所以我做 mahout seqdirectory -i inputFolder -o outputFolder 但我總是得到這個異常 java.lang.Exception: java.lang.RuntimeException: java.lang.reflect.InvocationTargetException at org.ap

    1熱度

    1回答

    我已經看到關於此主題的一些帖子,但我無法找到解決我的問題。我使用Hadoop版本Hadoop 2.0.0-cdh4.2.0和Java版本「1.7.0_09-icedtea」。我正在運行一個程序,它利用計數器來控制簡單的mapreduce示例中的交互。我也使用序列文件來傳遞數據。代碼很簡單:它從一個數字開始,比如3。映射器不會修改數字,而只是傳輸數值。減速器每次運行時將數字減1。如果數字大於零,計數

    1熱度

    1回答

    reducer(具有Text鍵和Iterable MapWritable值)如何將其所有Map的序列輸出到序列文件以便保留其關鍵字上的分組?例如,假設映射器發送記錄減速看起來像: <"dog", {<"name", "Fido">, <"pure bred?", "false">, <"type", "mutt">}> <"cat", {<"name", "Felix">, <"color",

    0熱度

    1回答

    我使用TXT作爲輸入的書寫的Hadoop序列文件。 我知道如何寫從文本文件序列文件。 但我想限制輸出序列文件的某些特定的大小,比如256MB。 有什麼內在的方法來做到這一點?

    1熱度

    1回答

    我正在嘗試使用Hadoop處理大量存儲在序列文件中的小文件。我的程序是高IO限制所以我想確保IO吞吐量足夠高。 我寫了一個MR程序,從序列文件中讀取小樣本文件,並將這些文件寫入RAM磁盤(/ dev/shm/test /)。還有另外一個獨立程序,它將刪除寫入RAM磁盤的文件而不進行任何計算。所以測試應該是差不多純IO界限。但是,IO吞吐量並不如我預期的那麼好。 我有5個datanode,每個dat

    6熱度

    1回答

    我希望能夠創建一個自定義的InputFormat來讀取序列文件,但另外公開該文件中記錄所在的文件路徑和偏移量。 退一步,這裏是用例:我有一個序列文件包含可變大小的數據。密鑰大部分是不相關的,值高達幾兆字節,包含各種不同的字段。我想索引一些在elasticsearch中的這些字段以及文件名和偏移量。這樣,我可以從elasticsearch中查詢這些字段,然後使用文件名和偏移量返回序列文件並獲取原始記

    2熱度

    1回答

    我有一個mapreduce程序,其輸出全部在文本文件中。該程序的一個示例如下。 我不知道該怎麼做,是從reducer輸出序列文件格式的鍵/值對。 不,我不能因爲我使用Hadoop的0.20庫 所以,我該怎麼辦使用SequeceFileFormat符?以下是樣本 wordcount程序只是我的大型程序的一小部分。如果我知道如何做到這一點,我可以和其他人一起做。 請幫忙。 字數減速 public vo

    1熱度

    1回答

    我讀了hadoop-1.0.4源代碼中的SequenceFile.java。我發現sync(long)方法 它被用於在SequenceFile中將SequenceFile拆分爲MapReduce中的文件拆分時,在SequenceFile中查找「同步標記」(在文件創建時生成時爲16字節的MD5)。 /** Seek to the next sync mark past a given positio

    0熱度

    1回答

    我嘗試了HBase導出工具將錶轉移到HDFS。我試圖通過hadoop dfs -text這個文件來查看內容的集合。但是,我得到了一個致命錯誤: java.lang.RuntimeException: java.io.IOException: WritableName can't load class: org.apache.hadoop.hbase.io.ImmutableBytesWritabl