sequencefile

0熱度

1回答

我想要一塊的Hadoop SequenceFile的轉換爲純文本使用下面的代碼： Configuration config = new Configuration(); Path path = new Path(inputPath); SequenceFile.Reader reader = new SequenceFile.Reader(FileSystem.get(conf

0熱度

1回答

有沒有一種有效的方法來查找給定密鑰的序列文件？

我的map-reduce作業將最終結果寫入序列文件。有沒有找到給定密鑰的序列文件的有效方法？

1熱度

1回答

Mahout：將一個大型文本文件轉換爲SequenceFile格式

我在網上做了很多搜索，但我什麼也沒找到，儘管我覺得它有點常見。我已經使用Mahout的seqdirectory命令來轉換包含文本文件的文件夾（每個文件都是單獨的文檔）。但在這種情況下，有太多的文檔（100,000），我有一個非常大的文本文件，其中每一行是一個文檔。我如何將這個大文件轉換爲SequenceFile格式，以便Mahout明白每一行應該被認爲是一個單獨的文檔？非常感謝您的幫助。

2熱度

2回答

未找到Hadoop串行器異常

我有一個輸出格式爲SequenceFileOuputFormat的作業。我設置輸出鍵和值類是這樣的： conf.setOutputKeyClass(IntWritable.class); conf.setOutputValueClass(SplitInfo.class); 的SplitInfo類implements Serializable,Writable 我設置io.serializa

3熱度

1回答

SequenceFile.Writer的sync和syncFs是什麼意思？

環境：Hadoop的0.20.2-cdh3u5 我想日誌數據（10G）上傳到HDFS與使用SequenceFile.Writer定製工具。 SequenceFile.Writer w = SequenceFile.createWriter( hdfs, conf, p, LongWritable.class, Text.

1熱度

4回答

Hadoop HDFS：讀取正在編寫的序列文件

我正在使用Hadoop 1.0.3。我將日誌寫入Hadoop序列文件到HDFS中，每調用一堆日誌後我都會調用syncFS（），但我從不關閉文件（除了每天執行日常滾動時）。我想保證的是該文件在文件仍在寫入時可供讀者使用。我可以通過FSDataInputStream讀取序列文件的字節，但如果我嘗試使用SequenceFile.Reader.next（key，val），它會在第一次調用時返回fal

5熱度

1回答

使用Hive讀取Hadoop SequenceFiles

我有一些來自Common Crawl的已存儲在SequenceFile格式中的已映射數據。我曾多次嘗試將這些數據「按原樣」與Hive一起使用，以便我可以在各個階段對其進行查詢和採樣。但是，我總是得到下面的錯誤在我的作業輸出： LazySimpleSerDe: expects either BytesWritable or Text object! 我甚至建立的[文本，LongWritable]

3熱度

1回答

Mapper類如何將SequenceFile標識爲hadoop中的輸入文件？

在我的一個MapReduce任務中，我將BytesWritable重寫爲KeyBytesWritable，並將ByteWritable重寫爲ValueBytesWritable。然後我使用SequenceFileOutputFormat輸出結果。我的問題是當我開始下一個MapReduce任務時，我想使用這個SequenceFile作爲輸入文件。那麼我怎樣才能設置工作類，以及Mapper類如何識別

0熱度

1回答

從HDFS文件寫入二進制數據到SequenceFile

我在HDFS中有很多文件，並希望通過MR作業將它們複製到序列文件中。 seq文件的關鍵類型是TEXT（我使用SHA1），值類型是BytesWritable（文件內容）。我發現一些示例代碼將所有文件內容讀入一個字節數組，比如緩衝區，然後將緩衝區設置爲ByteWritable對象。例如： byte[] buffer = new byte[(int)file.length()]; FileInput

0熱度

2回答

使用SequenceFile類寫文件

我用的是後續代碼一些數據寫入SequenceFile格式文件。當程序運行一段時間時，我通過eclipse控制檯上的紅色按鈕中斷程序。但是，當我檢查hdfs上的數據文件時，序列文件的大小爲零。也不能使用'hadoop fs -text filename'命令查看該文件。當我使用SequenceFile.Reader讀取先前創建的文件，我遇到異常「線程‘main’java.io.EOFExceptio