我正在開發一個情緒分析工具,它接收.txt文件中的內容,並且需要檢查字典中的單詞是肯定還是否定。我使用FileInputFormat.addInputPath(args [0])引用包含要分析的單詞的.txt文件。我試圖用字典的內容(.txt文件64KB)創建一個ArrayList,並將一個靜態對象傳遞給Mapper類中使用的類ReadDictionary。 在eclipse上運行它是好的,但是當我嘗試在Hadoop上運行時,出現一些錯誤。如何將字典(.txt文件64KB)的內容以有效的方式傳遞給映射類以在Hadoop(HDFS)上運行?Hadoop Mapper類中的參數
0
A
回答
0
在org.apache.hadoop.mapreduce.Mapper
類中,有一個setup
方法,它在初始化Mapper
時調用。
您可以保存你的字典在HDFS或本地或遠程的地方,你可以通過它的控制器(路徑,文件路徑,或遠程URL)作爲上下文參數。在您的setup
impl中,您使用上下文參數實例化字典。字典對象將通過您的Mapper
的生命留在記憶中。
您可以清理,如果需要的話,在cleanup
方法。
1
您可以使用org.apache.hadoop.filecache.DistributedCache
來緩存字典文件。
DistributedCache是一個Map-Reduce框架提供的緩存文件由應用程序需要(文字,檔案,罐等)的設施。
作業的所有任務都在該節點上執行之前,該框架將複製到從節點所需的文件。它的效率源自這樣一個事實,即每個作業只複製一次文件,並且能夠緩存從站上未歸檔的歸檔。
這是tutorial。
相關問題
- 1. Hadoop - MapReduce - Mapper輸出類型
- 2. Hadoop中的Mapper和Reducer
- 3. Hadoop Mapper的採樣記錄
- 4. Hadoop Mapper中Mapper/Reducer的設置和清理方法MapReduce
- 5. Hadoop Mapper中的依賴注入
- 6. 如何在Hadoop中導入和使用Mapper中的類?
- 7. Mapper with multipleInput on Hadoop cluster
- 8. hadoop mapper閱讀多行
- 9. Mapper類如何將SequenceFile標識爲hadoop中的輸入文件?
- 10. 如何在Hadoop的Mapper和Reducer中提供子類?
- 11. 如何在Scala 2.9.0中實現Hadoop Mapper?
- 12. 如何在Hadoop 1.0.4中鏈接mapper/reducer?
- 13. 默認/找到hadoop 1.x中的mapper和reducer的數量
- 14. 的Hadoop - 減速到Mapper端口
- 15. Mapper類型不是通用的;它不能用參數<LongWritable,Text,Text,IntWritable>參數化>
- 16. Mapper類型不是通用的,hadoop eclipse插件
- 17. Spring-Hadoop使用來自mapper類的彈簧對象
- 18. 在Hadoop Mapper中獲取總輸入路徑數
- 19. Hadoop java mapper -copyFromLocal堆大小錯誤
- 20. Hadoop - 直接從Mapper寫入HBase
- 21. Hadoop。如何從Mapper獲得作業
- 22. Hive setup() - 類似於Mapper setup()的功能?
- 23. 如何確定Hadoop中Mapper中的最後一條記錄?
- 24. 如何讓每個mapper類讀取hadoop中的同一個文件
- 25. 使用MultilineJSON格式的Hadoop 2.2中的Mapper任務錯誤
- 26. 是否可以將屬性從mapper傳遞給hadoop中的reducer?
- 27. Mapper和Reducer是Hadoop版本2中的接口?
- 28. 在hadoop中搜索mapper程序的說明
- 29. 是一個tasktracker對應hadoop中的mapper還是reducer?
- 30. hadoop mapper程序中的空指針異常