我想編寫一個hadoop應用程序,它將輸入文件和包含多個文件的輸入文件夾作爲輸入。單個文件包含需要從文件夾中的其他文件中選擇和提取記錄的鍵。我怎樣才能做到這一點?Hadoop MapReduce:讀取文件並將其用作輸入來過濾其他文件
順便說,我有一個正在運行的hadoop MapReduce的應用程序,它需要輸入一個的文件夾路徑,不處理並寫出結果到不同的文件夾中。
我種的套牢如何使用一個文件來得到需要進行選擇,並在特定目錄中提取出來的其他文件的密鑰。包含密鑰的文件是一個大文件,因此它不能直接放入主內存。我該怎麼做?
Thx!
如果密鑰的數量很大,請考慮使用DistributedCache或-files通用選項,然後將密鑰加載到映射器設置階段的內存中 –
@Christian:我怎樣才能使它們成爲全局的?將所有必需的密鑰存儲在作業配置中意味着什麼?我怎麼能做到這一點? – Bob