我是新來hadoop需要了解有關備份和恢復的詳細信息。我修改了oracle備份和恢復,它會在hadoop幫助嗎?我應該從哪裏開始Hadoop備份和恢復工具和指導
回答
Hadoop設計用於具有1000個節點的大型羣集。數據丟失可能較少。您可以增加複製因子以將數據複製到羣集中的許多節點中。
有關的Namenode日誌備份,或者您可以使用secondary namenode或Hadoop High Availability
次要的Namenode
次要的NameNode將採取備份的namnode日誌。如果namenode失敗,則可以從輔助名稱節點恢復namenode日誌(其中包含數據塊信息)。
高可用性
高可用性是一個新的功能以運行在集羣中的多個NameNode的。一個namenode將被激活,另一個將處於待命狀態。日誌保存在兩個namenode中。如果一個名稱節點失敗,另一個名稱變爲活動狀態,它將處理該操作。
但是在大多數情況下,我們也需要考慮備份和災難恢復。請參閱@ brandon.bell回答。
@ Kumar-複製不是爲災難恢復而設計的。數據複製僅在節點故障的情況下有用。即使高可用性羣集也不是爲災難恢復而設計的。它確保了集羣的可用性。當我們處理敏感數據時,我們應該關心備份和恢復。請參閱我以前的帖子,瞭解幾種災難恢復方法。 http://stackoverflow.com/questions/28038121/hadoop-disaster-recovery-and-prevent-data-loss –
總是需要備份。至少,您需要能夠防止數據的邏輯丟失。第1天,鮑勃被告知'清除我們不需要的東西',第5天有人問鮑勃所有有用的數據去了哪裏。複製是不夠的,如果它複製刪除。 – EightBitTony
除了防止用戶錯誤和邏輯數據丟失之外,您還需要進行某種備份以滿足內部審覈/合規性需求,例如,您必須將備份保留一定的月數/年,具體取決於您的行業 – JStorage
有幾種備份和恢復選項。正如s.singh指出的那樣,數據複製不是DR。
HDFS支持快照。這可以用來防止用戶錯誤,恢復文件等。就是說,這不是Hadoop集羣發生故障時的DR。 (http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsSnapshots.html)
最好的辦法是保持非現場備份。這可以是另一個Hadoop集羣,S3等,並可以使用distcp執行。 (http://hadoop.apache.org/docs/stable1/distcp2.html),(https://wiki.apache.org/hadoop/AmazonS3)
下面是一個Slideshare的由Cloudera的討論DR(http://www.slideshare.net/cloudera/hadoop-backup-and-disaster-recovery)
可以使用HDFS同步應用程序上DataTorrent爲DR使用的情況下備份大量數據從一個HDFS集羣另一個。
https://www.datatorrent.com/apphub/hdfs-sync/
它使用Apache Apex作爲處理引擎。
開始與官方文檔網站:HdfsUserGuide
低於SE帖子看一看:
Hadoop 2.0 data write operation acknowledgement
Hadoop: HDFS File Writes & Reads
Hadoop 2.0 Name Node, Secondary Node and Checkpoint node for High Availability
How does Hadoop Namenode failover process works?
關於Recovery_Mode的文檔頁面:
通常,您將配置多個元數據存儲位置。然後,如果一個存儲位置損壞,則可以從其他存儲位置之一讀取元數據。
但是,如果可用的唯一存儲位置已損壞,該怎麼辦?在這種情況下,有一個特殊NameNode啓動模式稱爲恢復模式,可能允許您恢復大部分數據。
您就可以開始在恢復模式下的NameNode像這樣:的NameNode -recover
- 1. SQL備份和恢復完整備份
- 2. SSIS包的工作備份和恢復
- 3. Android備份和恢復
- 4. 備份和恢復列值
- 5. TortoiseSVN備份和恢復
- 6. Cassandra備份和恢復
- 7. Drupal備份和恢復
- 8. 備份和恢復DynamoDb表
- 9. MySql備份和恢復
- 10. ActiveMQ - ReplicatedLevelDB - 備份和恢復
- 11. MySQL備份和恢復
- 12. Jenkins:備份和恢復
- 13. Oracle備份和恢復
- 14. SQL Server備份和恢復
- 15. IIS ISSUE備份和恢復
- 16. Django:備份和恢復
- 17. RavenDb備份和恢復
- 18. Ckan備份和恢復
- 19. MySQL的備份和恢復
- 20. 如何使用priam工具創建cassandra的備份和恢復?
- 21. 備份和恢復mysql數據庫c#
- 22. 備份和恢復realm.io數據庫
- 23. 如何備份和恢復表
- 24. Cassandra集羣的備份和恢復
- 25. 在wss 3.0中備份和恢復
- 26. 備份和恢復數據庫android studio
- 27. MySQL備份和從命令行恢復
- 28. 如何做yum備份和恢復?
- 29. POSTGRESQL 9.1備份和恢復到8.4
- 30. SQLite備份和恢復策略
是的,你應該瞭解備份和Hadoop的恢復過程。請看與它相關的帖子。 http://stackoverflow.com/questions/28038121/hadoop-disaster-recovery-and-prevent-data-loss –