阅读量:3
一、环境准备
- 硬件要求:每台节点(Master/Slave)需满足双核CPU、8GB以上内存、100GB以上硬盘空间(可根据数据量调整,建议NameNode使用64位硬件以避免32位内存限制)。
- 操作系统:推荐使用CentOS 7、Ubuntu 24.2等稳定Linux发行版(需支持Java和SSH服务)。
- 网络配置:所有节点需处于同一局域网,配置静态IP地址,并修改
/etc/hosts文件实现主机名与IP映射(如192.168.1.10 master、192.168.1.11 slave1),确保节点间可通过主机名互相通信。 - 软件依赖:需提前安装Java(推荐JDK 1.8+,如
sudo yum install -y java-1.8.0-openjdk-devel或sudo apt install -y openjdk-11-jdk)和SSH服务(默认安装,可通过ssh localhost验证连通性)。
二、安装Hadoop
- 下载与解压:从Apache官网下载最新稳定版Hadoop(如3.3.5),使用
wget命令下载后解压至指定目录(如/usr/local):wget https://downloads.apache.org/hadoop/core/hadoop-3.3.5/hadoop-3.3.5.tar.gz sudo tar -zxvf hadoop-3.3.5.tar.gz -C /usr/local/ sudo chown -R hadoop:hadoop /usr/local/hadoop-3.3.5 # 修改属主为hadoop用户(可选但推荐) ```。 - 配置环境变量:编辑
~/.bashrc(或/etc/profile)文件,添加以下内容以全局使用Hadoop命令:保存后执行export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # 根据实际Java路径调整 export HADOOP_HOME=/usr/local/hadoop-3.3.5 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource ~/.bashrc使配置生效。
三、配置SSH免密登录
- 生成密钥对:在Master节点上执行
ssh-keygen -t rsa,按提示连续回车(不设置密码),生成~/.ssh/id_rsa(私钥)和~/.ssh/id_rsa.pub(公钥)。 - 分发公钥:将Master节点的公钥复制到所有Slave节点,实现免密登录:
执行后输入Slave节点的hadoop用户密码,完成后测试免密登录(如ssh-copy-id hadoop@slave1 # 替换为Slave节点的主机名/IP ssh-copy-id hadoop@slave2ssh slave1应无需密码)。
四、配置Hadoop核心文件
进入$HADOOP_HOME/etc/hadoop目录,修改以下关键配置文件:
- core-site.xml:配置HDFS的默认文件系统地址(指向NameNode):
<configuration> <property> <name>fs.defaultFSname> <value>hdfs://master:9000value> property> configuration> ```。 - hdfs-site.xml:配置HDFS副本数(生产环境建议3,测试环境可设为1)和NameNode/DataNode数据存储路径:
<configuration> <property> <name>dfs.replicationname> <value>3value> property> <property> <name>dfs.namenode.name.dirname> <value>/usr/local/hadoop-3.3.5/data/namenodevalue> property> <property> <name>dfs.datanode.data.dirname> <value>/usr/local/hadoop-3.3.5/data/datanodevalue> property> configuration> ```。 - mapred-site.xml:指定MapReduce框架为YARN(需提前创建
mapred-site.xml,可通过cp mapred-site.xml.template mapred-site.xml生成):<configuration> <property> <name>mapreduce.framework.namename> <value>yarnvalue> property> configuration> ```。 - yarn-site.xml:配置YARN资源管理器(ResourceManager)地址和Shuffle服务:
<configuration> <property> <name>yarn.resourcemanager.hostnamename> <value>mastervalue> property> <property> <name>yarn.nodemanager.aux-servicesname> <value>mapreduce_shufflevalue> property> configuration> ```。
五、启动Hadoop集群
- 格式化NameNode:仅在首次安装时执行,用于初始化HDFS元数据(注意:格式化会清除原有数据):
hdfs namenode -format ```。 - 启动HDFS:执行
start-dfs.sh命令启动NameNode和DataNode服务,启动后可通过jps命令查看NameNode、DataNode进程是否运行:$HADOOP_HOME/sbin/start-dfs.sh jps # 应显示NameNode、DataNode进程 ```。 - 启动YARN:执行
start-yarn.sh命令启动ResourceManager和NodeManager服务,同样通过jps查看进程:$HADOOP_HOME/sbin/start-yarn.sh jps # 应显示ResourceManager、NodeManager进程 ```。
六、验证集群状态
- 查看HDFS状态:使用
hdfs dfsadmin -report命令查看DataNode列表、存储容量等信息,确认DataNode已成功连接。 - 查看YARN状态:使用
yarn node -list命令查看NodeManager列表,确认YARN集群正常运行。 - 访问Web界面:打开浏览器访问HDFS Web界面(
http://master:50070)和YARN Web界面(http://master:8088),查看集群状态和资源使用情况(部分版本可能需替换为http://master:9870,具体以实际版本为准)。
以上就是关于“Linux环境下Hadoop集群怎样搭建”的相关介绍,筋斗云是国内较早的云主机应用的服务商,拥有10余年行业经验,提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩,主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复;电子化备案,提交快速,专业团队7×24小时服务支持!
简单好用、高性价比云服务器租用链接:https://www.jindouyun.cn/product/cvm