0
我在HDFS中有3個LZO壓縮文件及其相應的索引文件。S3上的LZO文件問題
Permission Owner Group Size Replication Block Size Name
-rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS
-rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo
-rw-r--r-- alum supergroup 89.56 KB 3 128 MB part-00000.lzo.index
-rw-r--r-- alum supergroup 243.09 MB 3 128 MB part-00001.lzo
-rw-r--r-- alum supergroup 106.67 KB 3 128 MB part-00001.lzo.index
-rw-r--r-- alum supergroup 163.99 MB 3 128 MB part-00002.lzo
-rw-r--r-- alum supergroup 70.54 KB 3 128 MB part-00002.lzo.index
我們將這些文件複製到Amazon S3並創建用於分析的Hive外部表。
以下是我們所面臨的問題,
1) LZO index files are also being treated as data files and meaningless data appears in hive tables
2) "count(*)" query on the table spans only 4 mappers. Indicating problem in splitting.
可否請你告訴我什麼在S3回事?它在我們的YARN集羣中工作正常。