sequencefile

0熱度

2回答

如果我將所有圖像存儲在SequenceFile中，我如何設計mapper來處理它們的選擇？

我確實有很多圖像文件，需要將它們存儲在HDFS中，爲了避免小文件問題，我計劃使用序列文件存儲我的圖像文件。我的問題是，我需要創建一個MapReduce程序，只處理這些文件的選擇，我不認爲從SequenceFile中讀取所有圖像內容不是一個好主意，如果我只打算處理其中的一些，還可以添加更多的圖像，如果我爲每一組圖像創建一個新的SequenceFile，我如何知道哪個SequenceFile包含我需

0熱度

2回答

Mahout：無法轉換爲序列文件

我試圖將一些文本文件轉換爲mahout序列文件。所以我做 mahout seqdirectory -i inputFolder -o outputFolder 但我總是得到這個異常 java.lang.Exception: java.lang.RuntimeException: java.lang.reflect.InvocationTargetException at org.ap

1熱度

1回答

租賃不匹配LeaseExpiredException

我已經看到關於此主題的一些帖子，但我無法找到解決我的問題。我使用Hadoop版本Hadoop 2.0.0-cdh4.2.0和Java版本「1.7.0_09-icedtea」。我正在運行一個程序，它利用計數器來控制簡單的mapreduce示例中的交互。我也使用序列文件來傳遞數據。代碼很簡單：它從一個數字開始，比如3。映射器不會修改數字，而只是傳輸數值。減速器每次運行時將數字減1。如果數字大於零，計數

1熱度

1回答

hadoop序列文件集合

reducer（具有Text鍵和Iterable MapWritable值）如何將其所有Map的序列輸出到序列文件以便保留其關鍵字上的分組？例如，假設映射器發送記錄減速看起來像： <"dog", {<"name", "Fido">, <"pure bred?", "false">, <"type", "mutt">}> <"cat", {<"name", "Felix">, <"color",

0熱度

1回答

如何限制的Hadoop序列文件的大小？

我使用TXT作爲輸入的書寫的Hadoop序列文件。我知道如何寫從文本文件序列文件。但我想限制輸出序列文件的某些特定的大小，比如256MB。有什麼內在的方法來做到這一點？

1熱度

1回答

HDFS序列文件性能調優

我正在嘗試使用Hadoop處理大量存儲在序列文件中的小文件。我的程序是高IO限制所以我想確保IO吞吐量足夠高。我寫了一個MR程序，從序列文件中讀取小樣本文件，並將這些文件寫入RAM磁盤（/ dev/shm/test /）。還有另外一個獨立程序，它將刪除寫入RAM磁盤的文件而不進行任何計算。所以測試應該是差不多純IO界限。但是，IO吞吐量並不如我預期的那麼好。我有5個datanode，每個dat

6熱度

1回答

將SequenceFileInputFormat擴展爲包含文件名+偏移量

我希望能夠創建一個自定義的InputFormat來讀取序列文件，但另外公開該文件中記錄所在的文件路徑和偏移量。退一步，這裏是用例：我有一個序列文件包含可變大小的數據。密鑰大部分是不相關的，值高達幾兆字節，包含各種不同的字段。我想索引一些在elasticsearch中的這些字段以及文件名和偏移量。這樣，我可以從elasticsearch中查詢這些字段，然後使用文件名和偏移量返回序列文件並獲取原始記

2熱度

1回答

在Hadoop中以順序文件格式寫/讀鍵/值對。

我有一個mapreduce程序，其輸出全部在文本文件中。該程序的一個示例如下。我不知道該怎麼做，是從reducer輸出序列文件格式的鍵/值對。不，我不能因爲我使用Hadoop的0.20庫所以，我該怎麼辦使用SequeceFileFormat符？以下是樣本 wordcount程序只是我的大型程序的一小部分。如果我知道如何做到這一點，我可以和其他人一起做。請幫忙。字數減速 public vo

1熱度

1回答

Hadoop SequenceFile是否安全？

我讀了hadoop-1.0.4源代碼中的SequenceFile.java。我發現sync(long)方法它被用於在SequenceFile中將SequenceFile拆分爲MapReduce中的文件拆分時，在SequenceFile中查找「同步標記」（在文件創建時生成時爲16字節的MD5）。 /** Seek to the next sync mark past a given positio

0熱度

1回答

由HBASE導出實用程序創建的序列文件不可讀

我嘗試了HBase導出工具將錶轉移到HDFS。我試圖通過hadoop dfs -text這個文件來查看內容的集合。但是，我得到了一個致命錯誤： java.lang.RuntimeException: java.io.IOException: WritableName can't load class: org.apache.hadoop.hbase.io.ImmutableBytesWritabl