阅读量:115
数据备份方法
- 快照功能
- 创建快照:
hdfs dfsadmin -createSnapshot /path snapshot_name - 查看快照:
hdfs dfs -listSnapshots /path - 恢复快照:
hdfs dfs -restoreSnapshot /path snapshot_name
- 创建快照:
- DistCp命令
- 用于集群间高效复制数据,支持并行和容错:
hadoop distcp source_path destination_path
- 用于集群间高效复制数据,支持并行和容错:
- 手动备份
- 备份到本地:
hdfs dfs -get /hdfs_path /local_path,恢复时用hdfs dfs -put /local_path /hdfs_path
- 备份到本地:
- Hadoop Archive (HAR)
- 将小文件打包归档:
hadoop archive -archiveName name.har -p /source_path /dest_path
- 将小文件打包归档:
数据恢复方法
- 快照恢复
通过快照副本快速回滚至指定时间点。 - 回收站恢复
从.Trash目录恢复误删文件:hdfs dfs -mv /user/.Trash/Current/file /original_path - DistCp恢复
从备份路径复制数据回目标路径。 - 编辑日志恢复
通过解析NameNode编辑日志修复元数据(复杂,需谨慎操作)。
关键策略
- 组合备份:全量备份(每周)+ 增量备份(每日),减少存储压力。
- 异地存储:备份数据存至不同物理位置或云存储,防单点故障。
- 自动化与测试:通过脚本定期执行备份,定期验证恢复流程的有效性。
注意:操作前确保集群正常运行,优先在测试环境验证备份恢复流程。
参考来源:[1,2,3,4,5,6,7,8,10,11]