hadoop-lzo

0熱度

2回答

NoSuchElementException當使用sqoop從hdfs將數據導出到mysql時

我想使用sqoop將一些數據從hdfs導出到mysql。問題是，當我試圖導出一個未壓縮文件時，它會正確導出，但如果我嘗試導出壓縮了lzo壓縮的同一文件，sqoop作業將失敗。我正在標準cloudera CDH4 VM環境中嘗試它。文件中的列由tab分隔，null表示爲'\ N'。文件內容： [[email protected] ~]$ cat dipayan-test.txt dipayan

0熱度

1回答

創建的蜂巢表LZO壓縮，不能找到文件擴展名爲.lzo

我通過設置在蜂房以下命令提示符屬性創建的蜂巢表： SET mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec SET hive.exec.compress.output=true SET mapreduce.output.fileoutputformat.compress=t

0熱度

1回答

S3上的LZO文件問題

我在HDFS中有3個LZO壓縮文件及其相應的索引文件。 Permission Owner Group Size Replication Block Size Name -rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS -rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo -rw

0熱度

1回答

在Spark DataFrame中讀取json行的LZO文件

我在HDFS中有一個大的索引lzo文件，我想在spark數據框中讀取它。該文件包含json文檔的行。 posts_dir='/data/2016/01' posts_dir有以下幾點： /data/2016/01/posts.lzo /data/2016/01/posts.lzo.index 下工作，但是沒有使用索引，因此需要很長的時間，因爲它僅使用一個映射。 posts = spark