怎样在 Ubuntu 上运行 Hadoop 任务_运维文库_资讯中心

发布时间:2026-04-27 11:09:55

阅读量:4

在 Ubuntu 上运行 Hadoop 任务，你需要遵循以下步骤：

安装 Java： Hadoop 需要 Java 环境。首先确保你的系统上安装了 Java。你可以通过运行以下命令来检查 Java 是否已安装：

java -version

如果没有安装 Java，请使用以下命令安装 OpenJDK：

sudo apt update
sudo apt install openjdk-11-jdk

下载并解压 Hadoop：访问 Hadoop 官方网站（https://hadoop.apache.org/releases.html）下载适用于 Linux 的 Hadoop 版本。解压下载的文件：

tar -xzvf hadoop-3.x.x.tar.gz

将解压后的文件夹移动到合适的位置，例如 /usr/local/hadoop：

sudo mv hadoop-3.x.x /usr/local/hadoop

配置 Hadoop 环境变量：编辑 ~/.bashrc 文件，添加以下内容：

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存文件并运行 source ~/.bashrc 使更改生效。

配置 Hadoop：根据你的需求和集群设置，编辑 Hadoop 配置文件。主要配置文件包括：

core-site.xml：配置 Hadoop 核心设置，例如文件系统 URI。
hdfs-site.xml：配置 HDFS 设置，例如副本数、数据目录等。
mapred-site.xml：配置 MapReduce 设置，例如作业历史服务器地址等。
yarn-site.xml：配置 YARN 设置，例如资源管理器地址等。

格式化 HDFS：在首次运行 Hadoop 之前，需要对 HDFS 进行格式化：

hdfs namenode -format

启动 Hadoop 集群：启动 Hadoop 的各个组件，包括 HDFS 和 YARN：

start-dfs.sh
start-yarn.sh

运行 Hadoop 任务：使用 hadoop jar 命令运行 Hadoop 任务。例如，运行一个名为 wordcount.jar 的 MapReduce 作业：

hadoop jar wordcount.jar input_directory output_directory

其中，input_directory 是输入数据所在的 HDFS 目录，output_directory 是输出结果所在的 HDFS 目录。

查看任务进度和结果：你可以使用以下命令查看 MapReduce 任务的进度和结果：

yarn application -list
yarn application -status

完成以上步骤后，你就可以在 Ubuntu 上运行 Hadoop 任务了。根据你的需求和集群设置，可能需要调整配置文件以满足特定需求。

以上就是关于“怎样在 Ubuntu 上运行 Hadoop 任务”的相关介绍，筋斗云是国内较早的云主机应用的服务商，拥有10余年行业经验，提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩，主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复；电子化备案，提交快速，专业团队7×24小时服务支持！

简单好用、高性价比云服务器租用链接：https://www.jindouyun.cn/product/cvm