2013-02-11 77 views
0

我有一小組文件緩存並通過DistributedCache分發到映射減少作業。 緩存的文件將來需要定期更新。我想知道是否可以在不重新啓動地圖縮減作業的情況下更新緩存的文件。更新Hadoop中分佈式緩存中的緩存文件

我閱讀了關於跟蹤緩存文件的修改時間戳的分佈式緩存。當地圖縮小作業未使用文件時,這對於更新文件有用嗎?

回答

2

緩存的文件在提交作業時被複制到HDFS,然後在產生M/R任務之前由不同的任務跟蹤器本地複製到本地節點。因此,作業運行時,分佈式緩存中的文件無法更改。

+0

謝謝你。如果無法修改,那麼可以使用DistributedCache跟蹤修改時間戳記? – Chitra 2013-02-12 16:13:51

+0

從[here](https://ccp.cloudera.com/display/DOC/Hadoop+Tutorial) - 分佈式緩存跟蹤緩存文件的修改時間戳。顯然緩存文件不應該由應用程序修改,或者在作業執行時外部修改。 – 2013-02-13 07:20:19