如何在 Debian 上部署 Hadoop 生态_运维文库_资讯中心

发布时间:2026-04-28 16:47:16

阅读量:6

在 Debian 上部署 Hadoop 生态可按以下步骤操作：

安装 Java 环境

sudo apt update && sudo apt install openjdk-11-jdk  # 推荐 JDK 11  
java -version  # 验证安装

下载并解压 Hadoop

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz  
tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/

配置环境变量
编辑 ~/.bashrc 或 /etc/profile，添加：

export HADOOP_HOME=/usr/local/hadoop-3.3.6  
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin  
source ~/.bashrc  # 使配置生效

配置 Hadoop 核心文件
- core-site.xml：设置 HDFS 地址（如 fs.defaultFS=hdfs://namenode:9000）。
- hdfs-site.xml：配置副本数（dfs.replication=3）、NameNode 和 DataNode 目录。
- mapred-site.xml：指定 MapReduce 框架为 YARN（mapreduce.framework.name=yarn）。
- yarn-site.xml：启用 MapReduce Shuffle 服务。

设置 SSH 免密登录

ssh-keygen -t rsa -b 4096  
ssh-copy-id hadoop@node1  # 对所有节点执行

格式化 HDFS 并启动服务

hdfs namenode -format  # 仅在 NameNode 执行  
start-dfs.sh && start-yarn.sh  # 在 NameNode 启动集群

验证集群状态
- 访问 NameNode Web 界面：http://namenode:9000。
- 查看 YARN 资源管理器：http://namenode:8088。
扩展生态组件（可选）
- Hive：安装后配置 hive-site.xml，连接 HDFS。
- Spark：需设置 spark-defaults.conf 中的 spark.master=yarn。

注意：生产环境需配置集群节点（NameNode/DataNode）、高可用性（HA）及安全机制（如 Kerberos）。具体参数需根据实际硬件和网络环境调整。

以上就是关于“如何在 Debian 上部署 Hadoop 生态”的相关介绍，筋斗云是国内较早的云主机应用的服务商，拥有10余年行业经验，提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩，主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复；电子化备案，提交快速，专业团队7×24小时服务支持！

简单好用、高性价比云服务器租用链接：https://www.jindouyun.cn/product/cvm