阅读量:3
Ubuntu虚拟机配置Hadoop(伪分布式/单节点模式)
1. 前置准备
- 环境要求:Ubuntu 22.04/20.04/18.04虚拟机(建议内存≥4GB,磁盘≥20GB);虚拟机软件(如VMware Workstation/Player)。
- 基础工具:终端(Terminal)、文本编辑器(vim/nano)、网络工具(Xshell/Xftp,可选)。
2. 安装与配置Java(Hadoop依赖)
Hadoop是用Java开发的,需先安装JDK(推荐OpenJDK 8/11/17):
# 更新软件包列表
sudo apt update
# 安装OpenJDK 11(可根据需求替换为8/17)
sudo apt install -y openjdk-11-jdk
# 验证安装
java -version # 应输出JDK版本信息
配置Java环境变量(编辑~/.bashrc):
vim ~/.bashrc
在文件末尾添加:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 # 根据实际JDK路径调整
export PATH=$PATH:$JAVA_HOME/bin
使配置生效:
source ~/.bashrc
3. 下载与安装Hadoop
从Apache官网下载稳定版Hadoop(如3.3.4),解压至/usr/local/:
# 下载Hadoop(以3.3.4为例)
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
# 解压
tar -xzvf hadoop-3.3.4.tar.gz
# 移动至/usr/local/并重命名
sudo mv hadoop-3.3.4 /usr/local/hadoop
# 修改目录权限(避免后续操作权限问题)
sudo chown -R $USER:$USER /usr/local/hadoop
4. 配置Hadoop环境变量
编辑~/.bashrc,添加Hadoop相关变量:
vim ~/.bashrc
在文件末尾添加:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
使配置生效:
source ~/.bashrc
5. 配置Hadoop核心文件
进入Hadoop配置目录($HADOOP_HOME/etc/hadoop),修改以下文件:
(1) core-site.xml(HDFS默认文件系统)
<configuration>
<property>
<name>fs.defaultFSname>
<value>hdfs://localhost:9000value>
property>
<property>
<name>hadoop.tmp.dirname>
<value>/usr/local/hadoop/tmpvalue>
property>
configuration>
(2) hdfs-site.xml(HDFS存储配置)
<configuration>
<property>
<name>dfs.replicationname>
<value>1value>
property>
<property>
<name>dfs.namenode.name.dirname>
<value>file:///usr/local/hadoop/dfs/namevalue>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>file:///usr/local/hadoop/dfs/datavalue>
property>
configuration>
(3) mapred-site.xml(MapReduce框架配置)
若文件不存在,可复制模板生成:
cp mapred-site.xml.template mapred-site.xml
修改内容:
<configuration>
<property>
<name>mapreduce.framework.namename>
<value>yarnvalue>
property>
configuration>
(4) yarn-site.xml(YARN配置)
<configuration>
<property>
<name>yarn.nodemanager.aux-servicesname>
<value>mapreduce_shufflevalue>
property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.classname>
<value>org.apache.hadoop.mapred.ShuffleHandlervalue>
property>
configuration>
6. 创建HDFS数据目录
# 创建NameNode数据目录
mkdir -p /usr/local/hadoop/dfs/name
# 创建DataNode数据目录
mkdir -p /usr/local/hadoop/dfs/data
7. 格式化HDFS(首次启动前必须执行)
格式化会清除HDFS中的所有数据,仅首次启动时执行:
hdfs namenode -format
8. 启动Hadoop集群
启动HDFS和YARN服务:
# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh
查看服务状态:
# 查看Hadoop进程
jps # 应显示NameNode、DataNode、ResourceManager、NodeManager等进程
# 查看HDFS健康状态
hdfs dfsadmin -report
9. 验证Hadoop功能
运行Hadoop自带的WordCount示例,验证集群是否正常工作:
# 创建输入目录
hdfs dfs -mkdir -p /input
# 将Hadoop配置文件复制到输入目录(作为测试数据)
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input
# 运行WordCount程序
hdfs dfs -cat /output/*
常见问题解决
- 权限问题:若启动时报权限错误,执行
chmod -R 755 /usr/local/hadoop调整目录权限。 - 端口冲突:若HDFS端口(9000)被占用,修改
core-site.xml中的fs.defaultFS端口(如改为9001)。 - 环境变量未生效:确保
~/.bashrc修改后执行了source ~/.bashrc,或重启终端。
通过以上步骤,即可在Ubuntu虚拟机上完成Hadoop的单节点(伪分布式)配置,并验证其基本功能。
以上就是关于“Ubuntu Hadoop 虚拟机怎么配置”的相关介绍,筋斗云是国内较早的云主机应用的服务商,拥有10余年行业经验,提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩,主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复;电子化备案,提交快速,专业团队7×24小时服务支持!
简单好用、高性价比云服务器租用链接:https://www.jindouyun.cn/product/cvm