阅读量:4
在 Ubuntu 上运行 Hadoop 任务,你需要遵循以下步骤:
- 安装 Java: Hadoop 需要 Java 环境。首先确保你的系统上安装了 Java。你可以通过运行以下命令来检查 Java 是否已安装:
java -version
如果没有安装 Java,请使用以下命令安装 OpenJDK:
sudo apt update
sudo apt install openjdk-11-jdk
- 下载并解压 Hadoop: 访问 Hadoop 官方网站(https://hadoop.apache.org/releases.html)下载适用于 Linux 的 Hadoop 版本。解压下载的文件:
tar -xzvf hadoop-3.x.x.tar.gz
将解压后的文件夹移动到合适的位置,例如 /usr/local/hadoop:
sudo mv hadoop-3.x.x /usr/local/hadoop
- 配置 Hadoop 环境变量:
编辑
~/.bashrc文件,添加以下内容:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存文件并运行 source ~/.bashrc 使更改生效。
- 配置 Hadoop: 根据你的需求和集群设置,编辑 Hadoop 配置文件。主要配置文件包括:
core-site.xml:配置 Hadoop 核心设置,例如文件系统 URI。hdfs-site.xml:配置 HDFS 设置,例如副本数、数据目录等。mapred-site.xml:配置 MapReduce 设置,例如作业历史服务器地址等。yarn-site.xml:配置 YARN 设置,例如资源管理器地址等。
- 格式化 HDFS: 在首次运行 Hadoop 之前,需要对 HDFS 进行格式化:
hdfs namenode -format
- 启动 Hadoop 集群: 启动 Hadoop 的各个组件,包括 HDFS 和 YARN:
start-dfs.sh
start-yarn.sh
- 运行 Hadoop 任务:
使用
hadoop jar命令运行 Hadoop 任务。例如,运行一个名为wordcount.jar的 MapReduce 作业:
hadoop jar wordcount.jar input_directory output_directory
其中,input_directory 是输入数据所在的 HDFS 目录,output_directory 是输出结果所在的 HDFS 目录。
- 查看任务进度和结果: 你可以使用以下命令查看 MapReduce 任务的进度和结果:
yarn application -list
yarn application -status
完成以上步骤后,你就可以在 Ubuntu 上运行 Hadoop 任务了。根据你的需求和集群设置,可能需要调整配置文件以满足特定需求。
以上就是关于“怎样在 Ubuntu 上运行 Hadoop 任务”的相关介绍,筋斗云是国内较早的云主机应用的服务商,拥有10余年行业经验,提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩,主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复;电子化备案,提交快速,专业团队7×24小时服务支持!
简单好用、高性价比云服务器租用链接:https://www.jindouyun.cn/product/cvm