2015-05-14 24 views
4

我是新來hadoop需要了解有關備份和恢復的詳細信息。我修改了oracle備份和恢復,它會在hadoop幫助嗎?我應該從哪裏開始Hadoop備份和恢復工具和指導

+1

是的,你應該瞭解備份和Hadoop的恢復過程。請看與它相關的帖子。 http://stackoverflow.com/questions/28038121/hadoop-disaster-recovery-and-prevent-data-loss –

回答

1

Hadoop設計用於具有1000個節點的大型羣集。數據丟失可能較少。您可以增加複製因子以將數據複製到羣集中的許多節點中。

參考Data Replication

有關的Namenode日誌備份,或者您可以使用secondary namenodeHadoop High Availability

次要的Namenode

次要的NameNode將採取備份的namnode日誌。如果namenode失敗,則可以從輔助名稱節點恢復namenode日誌(其中包含數據塊信息)。

高可用性

高可用性是一個新的功能以運行在集羣中的多個NameNode的。一個namenode將被激活,另一個將處於待命狀態。日誌保存在兩個namenode中。如果一個名稱節點失敗,另一個名稱變爲活動狀態,它將處理該操作。

但是在大多數情況下,我們也需要考慮備份和災難恢復。請參閱@ brandon.bell回答。

+1

@ Kumar-複製不是爲災難恢復而設計的。數據複製僅在節點故障的情況下有用。即使高可用性羣集也不是爲災難恢復而設計的。它確保了集羣的可用性。當我們處理敏感數據時,我們應該關心備份和恢復。請參閱我以前的帖子,瞭解幾種災難恢復方法。 http://stackoverflow.com/questions/28038121/hadoop-disaster-recovery-and-prevent-data-loss –

+2

總是需要備份。至少,您需要能夠防止數據的邏輯丟失。第1天,鮑勃被告知'清除我們不需要的東西',第5天有人問鮑勃所有有用的數據去了哪裏。複製是不夠的,如果它複製刪除。 – EightBitTony

+1

除了防止用戶錯誤和邏輯數據丟失之外,您還需要進行某種備份以滿足內部審覈/合規性需求,例如,您必須將備份保留一定的月數/年,具體取決於您的行業 – JStorage

4

有幾種備份和恢復選項。正如s.singh指出的那樣,數據複製不是DR。

HDFS支持快照。這可以用來防止用戶錯誤,恢復文件等。就是說,這不是Hadoop集羣發生故障時的DR。 (http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html

最好的辦法是保持非現場備份。這可以是另一個Hadoop集羣,S3等,並可以使用distcp執行。 (http://hadoop.apache.org/docs/stable1/distcp2.html),(https://wiki.apache.org/hadoop/AmazonS3

下面是一個Slideshare的由Cloudera的討論DR(http://www.slideshare.net/cloudera/hadoop-backup-and-disaster-recovery

0

開始與官方文檔網站:HdfsUserGuide

低於SE帖子看一看:​​

Hadoop 2.0 data write operation acknowledgement

Hadoop: HDFS File Writes & Reads

Hadoop 2.0 Name Node, Secondary Node and Checkpoint node for High Availability

How does Hadoop Namenode failover process works?

關於Recovery_Mode的文檔頁面:

通常,您將配置多個元數據存儲位置。然後,如果一個存儲位置損壞,則可以從其他存儲位置之一讀取元數據。

但是,如果可用的唯一存儲位置已損壞,該怎麼辦?在這種情況下,有一個特殊NameNode啓動模式稱爲恢復模式,可能允許您恢復大部分數據

您就可以開始在恢復模式下的NameNode像這樣:的NameNode -recover