S3上的LZO文件問題

我在HDFS中有3個LZO壓縮文件及其相應的索引文件。S3上的LZO文件問題

Permission Owner Group Size Replication Block Size Name 
-rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS 
-rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo 
-rw-r--r-- alum supergroup 89.56 KB 3 128 MB part-00000.lzo.index 
-rw-r--r-- alum supergroup 243.09 MB 3 128 MB part-00001.lzo 
-rw-r--r-- alum supergroup 106.67 KB 3 128 MB part-00001.lzo.index 
-rw-r--r-- alum supergroup 163.99 MB 3 128 MB part-00002.lzo 
-rw-r--r-- alum supergroup 70.54 KB 3 128 MB part-00002.lzo.index

我們將這些文件複製到Amazon S3並創建用於分析的Hive外部表。

以下是我們所面臨的問題，

1) LZO index files are also being treated as data files and meaningless data appears in hive tables 
2) "count(*)" query on the table spans only 4 mappers. Indicating problem in splitting.

可否請你告訴我什麼在S3回事？它在我們的YARN集羣中工作正常。

來源

2015-12-04 user1570824