0
我想用Hadoop在Python中處理CSV文件,但我需要引用另一個包含查找信息的文件。Hadoop/Python:加載映射器中使用的參考文件
我讀過我可以使用-files命令行選項創建符號鏈接到本地文件,但是如何在Python映射器文件中引用此文件?
我想用Hadoop在Python中處理CSV文件,但我需要引用另一個包含查找信息的文件。Hadoop/Python:加載映射器中使用的參考文件
我讀過我可以使用-files命令行選項創建符號鏈接到本地文件,但是如何在Python映射器文件中引用此文件?
一旦這項工作在亞馬遜EMR創建的,我可以將文件複製到S3,並直接使用-cacheFile
選項引用它:
bin/hadoop ... -cacheFile s3://my-bucket/files/cachefile.csv#reference
在Python然後我可以打開此文件:
with open("reference") as reference_file:
references = reference_file.read().splitlines()