Hadoop備份和恢復工具和指導

我是新來hadoop需要了解有關備份和恢復的詳細信息。我修改了oracle備份和恢復，它會在hadoop幫助嗎？我應該從哪裏開始Hadoop備份和恢復工具和指導

2015-05-14 Anand Kamathi

是的，你應該瞭解備份和Hadoop的恢復過程。請看與它相關的帖子。 http://stackoverflow.com/questions/28038121/hadoop-disaster-recovery-and-prevent-data-loss –

Hadoop設計用於具有1000個節點的大型羣集。數據丟失可能較少。您可以增加複製因子以將數據複製到羣集中的許多節點中。

參考Data Replication

有關的Namenode日誌備份，或者您可以使用secondary namenode或Hadoop High Availability

次要的Namenode

次要的NameNode將採取備份的namnode日誌。如果namenode失敗，則可以從輔助名稱節點恢復namenode日誌（其中包含數據塊信息）。

高可用性

高可用性是一個新的功能以運行在集羣中的多個NameNode的。一個namenode將被激活，另一個將處於待命狀態。日誌保存在兩個namenode中。如果一個名稱節點失敗，另一個名稱變爲活動狀態，它將處理該操作。

但是在大多數情況下，我們也需要考慮備份和災難恢復。請參閱@ brandon.bell回答。

來源

2015-05-14 09:56:02 Kumar

@ Kumar-複製不是爲災難恢復而設計的。數據複製僅在節點故障的情況下有用。即使高可用性羣集也不是爲災難恢復而設計的。它確保了集羣的可用性。當我們處理敏感數據時，我們應該關心備份和恢復。請參閱我以前的帖子，瞭解幾種災難恢復方法。 http://stackoverflow.com/questions/28038121/hadoop-disaster-recovery-and-prevent-data-loss –

總是需要備份。至少，您需要能夠防止數據的邏輯丟失。第1天，鮑勃被告知'清除我們不需要的東西'，第5天有人問鮑勃所有有用的數據去了哪裏。複製是不夠的，如果它複製刪除。 – EightBitTony

除了防止用戶錯誤和邏輯數據丟失之外，您還需要進行某種備份以滿足內部審覈/合規性需求，例如，您必須將備份保留一定的月數/年，具體取決於您的行業 – JStorage

有幾種備份和恢復選項。正如s.singh指出的那樣，數據複製不是DR。

HDFS支持快照。這可以用來防止用戶錯誤，恢復文件等。就是說，這不是Hadoop集羣發生故障時的DR。（http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html）

最好的辦法是保持非現場備份。這可以是另一個Hadoop集羣，S3等，並可以使用distcp執行。（http://hadoop.apache.org/docs/stable1/distcp2.html），（https://wiki.apache.org/hadoop/AmazonS3）

下面是一個Slideshare的由Cloudera的討論DR（http://www.slideshare.net/cloudera/hadoop-backup-and-disaster-recovery）

來源

2015-05-14 15:31:54

可以使用HDFS同步應用程序上DataTorrent爲DR使用的情況下備份大量數據從一個HDFS集羣另一個。

https://www.datatorrent.com/apphub/hdfs-sync/

它使用Apache Apex作爲處理引擎。

來源

2016-11-15 01:32:55 ashwin111

開始與官方文檔網站：HdfsUserGuide

低於SE帖子看一看：

Hadoop 2.0 data write operation acknowledgement

Hadoop: HDFS File Writes & Reads

Hadoop 2.0 Name Node, Secondary Node and Checkpoint node for High Availability

How does Hadoop Namenode failover process works?

關於Recovery_Mode的文檔頁面：

通常，您將配置多個元數據存儲位置。然後，如果一個存儲位置損壞，則可以從其他存儲位置之一讀取元數據。

但是，如果可用的唯一存儲位置已損壞，該怎麼辦？在這種情況下，有一個特殊NameNode啓動模式稱爲恢復模式，可能允許您恢復大部分數據。

您就可以開始在恢復模式下的NameNode像這樣：的NameNode -recover

來源

2016-11-16 05:10:06

Hadoop備份和恢復工具和指導

回答

相關問題