Hadoop/Python：加載映射器中使用的參考文件

我想用Hadoop在Python中處理CSV文件，但我需要引用另一個包含查找信息的文件。Hadoop/Python：加載映射器中使用的參考文件

我讀過我可以使用-files命令行選項創建符號鏈接到本地文件，但是如何在Python映射器文件中引用此文件？

2014-10-21 n4cer500

一旦這項工作在亞馬遜EMR創建的，我可以將文件複製到S3，並直接使用-cacheFile選項引用它：

bin/hadoop ... -cacheFile s3://my-bucket/files/cachefile.csv#reference

在Python然後我可以打開此文件：

with open("reference") as reference_file: 
    references = reference_file.read().splitlines()

2014-10-27 19:34:05 n4cer500

回答