阅读量:2
在CentOS上排查Hadoop故障可按以下步骤进行:
-
查看系统及服务状态
- 用
journalctl -xe查看系统日志,systemctl status hadoop-*检查Hadoop服务(如NameNode、DataNode)是否正常。 - 通过
ps、top命令查看进程状态,确认无异常进程占用资源。
- 用
-
检查配置文件
- 确认
core-site.xml、hdfs-site.xml等配置正确,如fs.defaultFS、dfs.namenode.name.dir等参数。 - 检查环境变量(如
JAVA_HOME、HADOOP_HOME)是否配置正确。
- 确认
-
分析日志文件
- 查看Hadoop日志(默认在
/var/log/hadoop-hdfs/或$HADOOP_HOME/logs),用tail -f实时监控或grep搜索ERROR/WARN关键字。 - 重点关注NameNode和DataNode的运行日志,定位具体错误(如端口冲突、权限不足等)。
- 查看Hadoop日志(默认在
-
验证网络与权限
- 用
ping、traceroute检查节点间网络连通性,确保防火墙放行Hadoop所需端口(如50070、9870)。 - 用
ls -l检查文件/目录权限,确保Hadoop用户对数据目录有读写权限。
- 用
-
处理资源与磁盘问题
- 用
df -h、free -m检查磁盘空间和内存使用,清理冗余文件或扩容。 - 若磁盘故障,用
hdfs fsck检查并修复数据块。
- 用
-
借助工具监控与诊断
- 使用Ambari、Ganglia等工具监控集群状态,查看实时指标和历史趋势。
- 若遇复杂问题,可通过ELK Stack(Logstash+Kibana)进行日志集中分析。
-
常见操作与故障处理
- NameNode无法启动:检查日志,尝试重新格式化(首次启动需执行
hdfs namenode -format)。 - 端口冲突:用
netstat -tuln定位占用端口的进程,修改配置文件中的端口号。 - 数据块损坏:用
hdfs fsck /检查文件系统,修复或删除损坏块。
- NameNode无法启动:检查日志,尝试重新格式化(首次启动需执行
参考来源:
以上就是关于“Hadoop 故障 CentOS 上怎么排查”的相关介绍,筋斗云是国内较早的云主机应用的服务商,拥有10余年行业经验,提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩,主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复;电子化备案,提交快速,专业团队7×24小时服务支持!
简单好用、高性价比云服务器租用链接:https://www.jindouyun.cn/product/cvm