阅读量:3
Linux中HDFS故障排查可按以下步骤进行:
-
查看日志
- NameNode日志:
/var/log/hadoop-hdfs/namenode-*.log - DataNode日志:
/var/log/hadoop-hdfs/datanode-*.log - 使用
grep过滤ERROR/WARN级别日志。
- NameNode日志:
-
检查集群状态
hdfs dfsadmin -report:查看节点健康、副本数等。hdfs fsck /:检查文件系统完整性,列出损坏块。
-
验证配置文件
- 核对
core-site.xml(如fs.defaultFS)、hdfs-site.xml(如dfs.replication)等参数正确性。
- 核对
-
网络与权限检查
ping/traceroute:确认节点间网络连通性。netstat/ss:检查端口(如50070、50010)是否监听。- 确保用户对HDFS路径有读写权限。
-
资源监控
top/htop:查看CPU、内存使用情况。df -h:检查DataNode磁盘空间是否充足。
-
处理常见异常
- 安全模式:若处于安全模式,可尝试
hdfs dfsadmin -safemode leave(谨慎操作)。 - 块损坏:通过
hdfs fsck -delete删除损坏块(需先备份数据)。 - 副本不足:补充DataNode或调整
dfs.replication参数。
- 安全模式:若处于安全模式,可尝试
-
工具辅助
- 使用
HDFS Canary监控客户端操作延迟。 - 通过Ganglia/Prometheus监控集群性能指标。
- 使用
注意:操作前建议备份重要数据,复杂问题可参考官方文档或社区论坛(如Stack Overflow)。
以上就是关于“Linux中HDFS的故障排查怎么做”的相关介绍,筋斗云是国内较早的云主机应用的服务商,拥有10余年行业经验,提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩,主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复;电子化备案,提交快速,专业团队7×24小时服务支持!
简单好用、高性价比云服务器租用链接:https://www.jindouyun.cn/product/cvm