Ubuntu Hadoop 虚拟机怎么配置_产品动态_资讯中心

发布时间:2026-04-26 18:36:14

阅读量:3

Ubuntu虚拟机配置Hadoop（伪分布式/单节点模式）

1. 前置准备

环境要求：Ubuntu 22.04/20.04/18.04虚拟机（建议内存≥4GB，磁盘≥20GB）；虚拟机软件（如VMware Workstation/Player）。
基础工具：终端（Terminal）、文本编辑器（vim/nano）、网络工具（Xshell/Xftp，可选）。

2. 安装与配置Java（Hadoop依赖）

Hadoop是用Java开发的，需先安装JDK（推荐OpenJDK 8/11/17）：

# 更新软件包列表
sudo apt update
# 安装OpenJDK 11（可根据需求替换为8/17）
sudo apt install -y openjdk-11-jdk
# 验证安装
java -version  # 应输出JDK版本信息

配置Java环境变量（编辑~/.bashrc）：

vim ~/.bashrc

在文件末尾添加：

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  # 根据实际JDK路径调整
export PATH=$PATH:$JAVA_HOME/bin

使配置生效：

source ~/.bashrc

3. 下载与安装Hadoop

从Apache官网下载稳定版Hadoop（如3.3.4），解压至/usr/local/：

# 下载Hadoop（以3.3.4为例）
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
# 解压
tar -xzvf hadoop-3.3.4.tar.gz
# 移动至/usr/local/并重命名
sudo mv hadoop-3.3.4 /usr/local/hadoop
# 修改目录权限（避免后续操作权限问题）
sudo chown -R $USER:$USER /usr/local/hadoop

4. 配置Hadoop环境变量

编辑~/.bashrc，添加Hadoop相关变量：

vim ~/.bashrc

在文件末尾添加：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

使配置生效：

source ~/.bashrc

5. 配置Hadoop核心文件

进入Hadoop配置目录（$HADOOP_HOME/etc/hadoop），修改以下文件：

(1) core-site.xml（HDFS默认文件系统）

<configuration>
    <property>
        <name>fs.defaultFSname>
        <value>hdfs://localhost:9000value>  
    property>
    <property>
        <name>hadoop.tmp.dirname>
        <value>/usr/local/hadoop/tmpvalue>  
    property>
configuration>

(2) hdfs-site.xml（HDFS存储配置）

<configuration>
    <property>
        <name>dfs.replicationname>
        <value>1value>  
    property>
    <property>
        <name>dfs.namenode.name.dirname>
        <value>file:///usr/local/hadoop/dfs/namevalue>  
    property>
    <property>
        <name>dfs.datanode.data.dirname>
        <value>file:///usr/local/hadoop/dfs/datavalue>  
    property>
configuration>

(3) mapred-site.xml（MapReduce框架配置）

若文件不存在，可复制模板生成：

cp mapred-site.xml.template mapred-site.xml

修改内容：

<configuration>
    <property>
        <name>mapreduce.framework.namename>
        <value>yarnvalue>  
    property>
configuration>

(4) yarn-site.xml（YARN配置）

<configuration>
    <property>
        <name>yarn.nodemanager.aux-servicesname>
        <value>mapreduce_shufflevalue>  
    property>
    <property>
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.classname>
        <value>org.apache.hadoop.mapred.ShuffleHandlervalue>
    property>
configuration>

6. 创建HDFS数据目录

# 创建NameNode数据目录
mkdir -p /usr/local/hadoop/dfs/name
# 创建DataNode数据目录
mkdir -p /usr/local/hadoop/dfs/data

7. 格式化HDFS（首次启动前必须执行）

格式化会清除HDFS中的所有数据，仅首次启动时执行：

hdfs namenode -format

8. 启动Hadoop集群

启动HDFS和YARN服务：

# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh

查看服务状态：

# 查看Hadoop进程
jps  # 应显示NameNode、DataNode、ResourceManager、NodeManager等进程
# 查看HDFS健康状态
hdfs dfsadmin -report

9. 验证Hadoop功能

运行Hadoop自带的WordCount示例，验证集群是否正常工作：

# 创建输入目录
hdfs dfs -mkdir -p /input
# 将Hadoop配置文件复制到输入目录（作为测试数据）
hdfs dfs -put $HADOOP_HOME/etc/hadoop/*.xml /input
# 运行WordCount程序
hdfs dfs -cat /output/*

常见问题解决

权限问题：若启动时报权限错误，执行chmod -R 755 /usr/local/hadoop调整目录权限。
端口冲突：若HDFS端口（9000）被占用，修改core-site.xml中的fs.defaultFS端口（如改为9001）。
环境变量未生效：确保~/.bashrc修改后执行了source ~/.bashrc，或重启终端。

通过以上步骤，即可在Ubuntu虚拟机上完成Hadoop的单节点（伪分布式）配置，并验证其基本功能。

以上就是关于“Ubuntu Hadoop 虚拟机怎么配置”的相关介绍，筋斗云是国内较早的云主机应用的服务商，拥有10余年行业经验，提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩，主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复；电子化备案，提交快速，专业团队7×24小时服务支持！

简单好用、高性价比云服务器租用链接：https://www.jindouyun.cn/product/cvm