阅读量:0
在Ubuntu中配置HDFS的详细步骤
1. 环境准备
- 更新系统:运行
sudo apt update && sudo apt upgrade -y,确保系统软件包为最新版本。 - 安装基础工具:执行
sudo apt install -y build-essential openssh-server,安装编译工具和SSH服务(用于集群节点间通信)。 - 安装Java环境:Hadoop依赖Java,推荐使用OpenJDK 8。运行以下命令安装并配置环境变量:
sudo apt install -y openjdk-8-jdk java -version # 验证安装(需显示Java版本信息)
2. 下载并解压Hadoop
- 从Apache Hadoop官网下载稳定版本(如3.3.4),使用
wget命令获取安装包:wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz - 解压到指定目录(如
/usr/local/):sudo tar -xzvf hadoop-3.3.4.tar.gz -C /usr/local/
3. 配置Hadoop环境变量
- 编辑
~/.bashrc文件(用户级环境变量)或/etc/profile(系统级),添加以下内容:export HADOOP_HOME=/usr/local/hadoop-3.3.4 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin - 使配置生效:
source ~/.bashrc # 或 source /etc/profile
4. 配置HDFS核心文件
进入Hadoop配置目录$HADOOP_HOME/etc/hadoop,修改以下文件:
(1)core-site.xml
配置HDFS的默认文件系统地址(指向本地NameNode):
<configuration>
<property>
<name>fs.defaultFSname>
<value>hdfs://localhost:9000value>
property>
configuration>
(2)hdfs-site.xml
配置NameNode和DataNode的存储路径及副本数(单机环境设为1):
<configuration>
<property>
<name>dfs.replicationname>
<value>1value>
property>
<property>
<name>dfs.namenode.name.dirname>
<value>/usr/local/hadoop-3.3.4/data/namenodevalue>
property>
<property>
<name>dfs.datanode.data.dirname>
<value>/usr/local/hadoop-3.3.4/data/datanodevalue>
property>
configuration>
5. 创建HDFS数据目录
手动创建NameNode和DataNode的存储目录,并设置所有权:
sudo mkdir -p /usr/local/hadoop-3.3.4/data/namenode
sudo mkdir -p /usr/local/hadoop-3.3.4/data/datanode
sudo chown -R $USER:$USER /usr/local/hadoop-3.3.4/data # 将目录所有者设为当前用户
6. 格式化NameNode
首次启动HDFS前,必须格式化NameNode以初始化文件系统元数据:
hdfs namenode -format
格式化后会生成VERSION文件和edits日志,注意:格式化会清除已有数据,仅首次启动需执行。
7. 启动HDFS服务
使用以下命令启动HDFS(包含NameNode、DataNode等进程):
start-dfs.sh
8. 验证HDFS状态
- 检查进程:运行
jps,应看到以下进程:NameNode DataNode SecondaryNameNode - 访问Web界面:在浏览器中输入
http://localhost:50070(Hadoop 3.x版本可能为http://localhost:9870),查看HDFS状态页面。
9. 防火墙配置(可选)
若系统启用了ufw防火墙,需允许Hadoop相关端口通过:
sudo ufw allow 9000 # NameNode RPC端口
sudo ufw allow 50070 # HDFS Web界面端口
10. 常用HDFS命令示例
- 创建HDFS目录:
hdfs dfs -mkdir -p /user/$USER/input - 上传本地文件到HDFS:
hdfs dfs -put ~/test.txt /user/$USER/input - 列出HDFS目录内容:
hdfs dfs -ls /user/$USER/input - 下载HDFS文件到本地:
hdfs dfs -get /user/$USER/input/test.txt ~/download.txt - 删除HDFS文件:
hdfs dfs -rm /user/$USER/input/test.txt
注意事项
- 单机环境:
dfs.replication设为1即可,集群环境需根据节点数量调整(通常为3)。 - 目录权限:确保HDFS数据目录的所有者为当前用户,避免权限问题。
- 版本兼容:Hadoop 3.x版本的Web界面端口可能为
9870,需根据实际版本调整。
通过以上步骤,即可在Ubuntu系统上完成HDFS的基本配置并启动服务。如需扩展为集群环境,还需配置slaves文件、SSH无密码登录及多节点环境变量。
以上就是关于“如何在Ubuntu中配置HDFS”的相关介绍,筋斗云是国内较早的云主机应用的服务商,拥有10余年行业经验,提供丰富的云服务器、租用服务器等相关产品服务。云服务器资源弹性伸缩,主机vCPU、内存性能强悍、超高I/O速度、故障秒级恢复;电子化备案,提交快速,专业团队7×24小时服务支持!
简单好用、高性价比云服务器租用链接:https://www.jindouyun.cn/product/cvm