2015-12-04 46 views
0

我在HDFS中有3個LZO壓縮文件及其相應的索引文件。S3上的LZO文件問題

Permission Owner Group Size Replication Block Size Name 
-rw-r--r-- alum supergroup 0 B 3 128 MB _SUCCESS 
-rw-r--r-- alum supergroup 192.29 MB 3 128 MB part-00000.lzo 
-rw-r--r-- alum supergroup 89.56 KB 3 128 MB part-00000.lzo.index 
-rw-r--r-- alum supergroup 243.09 MB 3 128 MB part-00001.lzo 
-rw-r--r-- alum supergroup 106.67 KB 3 128 MB part-00001.lzo.index 
-rw-r--r-- alum supergroup 163.99 MB 3 128 MB part-00002.lzo 
-rw-r--r-- alum supergroup 70.54 KB 3 128 MB part-00002.lzo.index 

我們將這些文件複製到Amazon S3並創建用於分析的Hive外部表。

以下是我們所面臨的問題,

1) LZO index files are also being treated as data files and meaningless data appears in hive tables 
2) "count(*)" query on the table spans only 4 mappers. Indicating problem in splitting. 

可否請你告訴我什麼在S3回事?它在我們的YARN集羣中工作正常。

回答

0

s3的處理方式與HDFS不同。分割邏輯不需要像在HDFS中那樣應用。請記住s3是雲存儲,因爲HDFS不是本地存儲。您的文件不會以s3中的塊形式存在。這種行爲是預期的。