1. 环境准备
- 硬件要求:单节点伪分布式部署需至少4GB内存、50GB硬盘;多节点完全分布式部署建议每节点8GB以上内存、100GB以上硬盘,所有节点需在同一局域网且能互相通信。
- 操作系统:Ubuntu Server 16.04 LTS及以上版本(推荐22.04 LTS,兼容性更好)。
2. 安装与配置Java环境 Hadoop依赖Java 8或更高版本(推荐OpenJDK 11),需先安装并配置环境变量:
sudo apt update
sudo apt install -y openjdk-11-jdk # 安装OpenJDK 11
java -version # 验证安装(需显示Java版本信息)
配置环境变量:编辑~/.bashrc文件,添加以下内容:
export JAVA_HOME=$(dirname $(dirname $(readlink $(readlink $(which javac))))) # 自动获取Java安装路径
export PATH=$JAVA_HOME/bin:$PATH
使配置生效:
source ~/.bashrc
3. 下载与解压Hadoop
从Apache官网下载稳定版本(如3.3.6),解压至/usr/local目录:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
sudo tar -xzf hadoop-3.3.6.tar.gz -C /usr/local/
sudo mv /usr/local/hadoop-3.3.6 /usr/local/hadoop # 重命名为hadoop方便管理
sudo chown -R $USER:$USER /usr/local/hadoop # 修改所有权为当前用户
4. 配置Hadoop环境变量
编辑~/.bashrc文件,添加Hadoop路径:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使配置生效:
source ~/.bashrc
5. 配置Hadoop核心文件
Hadoop配置文件位于$HADOOP_HOME/etc/hadoop目录,需修改以下文件:
- core-site.xml(HDFS默认文件系统):
<configuration> <property> <name>fs.defaultFSname> <value>hdfs://localhost:9000value> # 伪分布式用localhost,集群用主节点主机名 property> <property> <name>hadoop.tmp.dirname> <value>/usr/local/hadoop/tmpvalue> # 临时目录,需提前创建 property> configuration> - hdfs-site.xml(HDFS配置):
<configuration> <property> <name>dfs.replicationname> <value>1value> # 伪分布式副本数为1,集群根据节点数调整(如3) property> <property> <name>dfs.namenode.name.dirname> <value>/usr/local/hadoop/data/namenodevalue> # NameNode元数据目录 property> <property> <name>dfs.datanode.data.dirname> <value>/usr/local/hadoop/data/datanodevalue> # DataNode数据目录 property> configuration> - mapred-site.xml(MapReduce配置,需先复制模板文件):
编辑内容:cp mapred-site.xml.template mapred-site.xml<configuration> <property> <name>mapreduce.framework.namename> <value>yarnvalue> # 使用YARN作为资源管理器 property> configuration> - yarn-site.xml(YARN配置):
<configuration> <property> <name>yarn.resourcemanager.hostnamename> <value>localhostvalue> # 集群中ResourceManager所在节点主机名 property> <property> <name>yarn.nodemanager.aux-servicesname> <value>mapreduce_shufflevalue> # Shuffle服务支持 property> <property> <name>yarn.nodemanager.resource.memory-mbname> <value>4096value> # NodeManager可用内存(根据节点配置调整) property> configuration>
6. 格式化HDFS 首次启动前需格式化HDFS(会清空所有数据,仅第一次需要):
hdfs namenode -format
7. 启动Hadoop集群 启动HDFS和YARN服务:
start-dfs.sh # 启动HDFS(NameNode、DataNode)
start-yarn.sh # 启动YARN(ResourceManager、NodeManager)
8. 验证集群状态
- 查看进程:运行
jps命令,应显示以下进程:- NameNode(主节点)
- DataNode(主节点或数据节点)
- ResourceManager(主节点)
- NodeManager(主节点或数据节点)
- 访问Web界面:
- HDFS NameNode:
http://localhost:9870(Hadoop 3.x版本端口) - YARN ResourceManager:
http://localhost:8088
- HDFS NameNode:
9. (可选)配置SSH无密码登录(集群必备) 若部署多节点集群,需配置主节点到所有从节点的无密码SSH登录:
ssh-keygen -t rsa # 生成密钥对(直接回车)
ssh-copy-id hadoop@slave1 # 将公钥复制到从节点(slave1替换为实际主机名/IP)
ssh hadoop@slave1 # 测试无密码登录(无需输入密码)
10. 部署后续步骤
- 扩展集群:将上述步骤复制到从节点,修改
core-site.xml中的fs.defaultFS为主节点主机名,slaves文件(位于$HADOOP_HOME/etc/hadoop)中添加从节点主机名。 - 优化配置:根据节点资源调整
yarn.nodemanager.resource.memory-mb(内存)、dfs.replication(副本数)等参数。 - 安装生态工具:如Hive(数据仓库)、Spark(内存计算)、HBase(NoSQL数据库),可通过类似方式下载、配置环境变量并启动。
以上就是关于“如何在 Ubuntu 上部署 Hadoop 生态系统”的相关介绍,筋斗云是国内较早的云主机应用的服务商,拥有10余年行业经验,提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩,主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复;电子化备案,提交快速,专业团队7×24小时服务支持!
简单好用、高性价比云服务器租用链接:https://www.jindouyun.cn/product/cvm