hadoop-lzo

    0熱度

    2回答

    我想使用sqoop將一些數據從hdfs導出到mysql。問題是,當我試圖導出一個未壓縮文件時,它會正確導出,但如果我嘗試導出壓縮了lzo壓縮的同一文件,sqoop作業將失敗。我正在標準cloudera CDH4 VM環境中嘗試它。文件中的列由tab分隔,null表示爲'\ N'。 文件內容: [[email protected] ~]$ cat dipayan-test.txt dipayan

    0熱度

    1回答

    我通過設置在蜂房以下命令提示符屬性創建的蜂巢表: SET mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec SET hive.exec.compress.output=true SET mapreduce.output.fileoutputformat.compress=t

    0熱度

    1回答

    我在HDFS中有3個LZO壓縮文件及其相應的索引文件。 Permission Owner Group Size Replication Block Size Name -rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS -rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo -rw

    0熱度

    1回答

    我在HDFS中有一個大的索引lzo文件,我想在spark數據框中讀取它。該文件包含json文檔的行。 posts_dir='/data/2016/01' posts_dir有以下幾點: /data/2016/01/posts.lzo /data/2016/01/posts.lzo.index 下工作,但是沒有使用索引,因此需要很長的時間,因爲它僅使用一個映射。 posts = spark