我準備好了hadoop實現的所有部分 - 我有一個正在運行的集羣,以及一個將活動數據推送到HDFS的客戶端編寫器。我有一個關於接下來會發生什麼的問題。我知道我們針對已經轉儲到HDFS的數據運行作業,但我的問題是:Hadoop操作化
1)首先,我正在寫入流並定期刷新 - 我通過線程寫入文件HDFS java客戶端,直到我殺掉我的服務器纔看到文件出現在HDFS中。如果我寫足夠的數據來填充塊,它會自動出現在文件系統中嗎?如何獲得準備好由M/R作業處理的文件?
2)我們什麼時候運行M/R作業?就像我說的,我正在通過HDFS java客戶端中的線程寫入文件,並且該線程鎖定了要寫入的文件。我應該在什麼時候發佈該文件?這種互動如何工作?在什麼時候對這些數據運行作業是'安全'的,而HDFS中的數據完成後會發生什麼?
因此,m/r作業負責處理已寫入塊的文件中的數據,並且我們可以繼續從java hdfs客戶端寫入相同的句柄? –
是的,一旦配置我們可以繼續寫作 – Satya