hadoop集群配置与启动(三)
创始人
2025-05-30 00:35:15

1 集群部署规划

  • NameNode 和 SecondaryNameNode 不要安装在同一台服务器 。
    (它们两个都需要耗内存,分开减少集群的压力)

  • ResourceManager 也很消耗内存,不要和 NameNode、SecondaryNameNode 配置在同一台机器上

2配置文件说明

Hadoop 配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。

(1)默认配置文件:

(2)自定义配置文件:

core-site.xml 、hdfs-site.xml 、yarn-site.xml 、mapred-site.xml 四个配置文件存放在

$HADOOP_HOME/etc/hadoop 这个路径上,用户可以根据项目需求重新进行修改配置。

3 配置 集群

(1)核心配置文件

配置 core-site.xml

[leokadia@hadoop102 ~] $ cd $HADOOP_HOME/etc/hadoop

[leokadia@hadoop102 hadoop]$ vim core-site.xml

文件内容如下:

 
    fs.defaultFS hdfs://hadoop102:8020   
 
    hadoop.tmp.dir /opt/module/hadoop-3.1.3/data   

先配置前面两个,后面这个我们先不配置,看看之后会出现什么问题

 
    hadoop.http.staticuser.user leokadia  
 

也就是说我们总共要插入配置文件的东西一共有这三个

 
    fs.defaultFS hdfs://hadoop102:8020    hadoop.tmp.dir /opt/module/hadoop-3.1.3/data    hadoop.http.staticuser.user atguigu  
 

(2)HDFS 配置文件

配置 hdfs-site.xml

[leokadia@hadoop102 hadoop]$ vim hdfs-site.xml

文件内容如下:

 
    dfs.namenode.http-address hadoop102:9870    dfs.namenode.secondary.http-address hadoop104:9868  
 
p.s.之前核心配置文件中NameNode地址hdfs://hadoop102:8020相当于是hadoop内部通讯地址,
现在NameNode是HDFS需要用户在web界面上访问,不需要操作命令行,即也需要对外暴露一个接口hadoop102:9870

(3)YARN 配置文件

配置 yarn-site.xml

[leokadia@hadoop102 hadoop]$ vim yarn-site.xml

文件内容如下:

 
 
   yarn.nodemanager.aux-services mapreduce_shuffle    yarn.resourcemanager.hostname hadoop103    yarn.nodemanager.env-whitelist JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME  
 

(4)MapReduce 配置文件

配置 mapred-site.xml

[leokadia@hadoop102 hadoop]$ vim mapred-site.xml

文件内容如下:

 
    mapreduce.framework.name yarn  
 

分别配置好上述文件,hadoop102的所有配置文件均配置完了。

但我们需要将这个配置文件分发给hadoop103,hadoop104

4 在集群上分发配置好的 Hadoop 配置文件

[leokadia@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/

5 去 103 和 104 上 查看文件分发情况

[leokadia@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

[leokadia@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

至此,整个集群的配置就搞定了!

6群起集群并测试

1 ) 配置 workers

在启动集群前需要配置workers

先进入hadoop目录

[leokadia@hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop

[leokadia@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

在该文件中增加如下内容:(有几个节点就配置几个主机名称)

hadoop102

hadoop103

hadoop104

注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。

同步所有节点配置文件

[leokadia@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc

分发配置,将三台节点配置完毕,回到家目录,准备启动集群

2 ) 启动集群

(1)初始化(注意:只有第一次的时候才需要)

如果集群是第一次启动,需要在 hadoop102 节点格式化 NameNode(注意:格式化 NameNode,会产生新的集群 id,导致 NameNode 和 DataNode 的集群 id 不一致,集群找不到已往数据。如果集群在运行过程中报错,需要重新格式化 NameNode 的话,一定要先停止 namenode 和 datanode 进程,并且要删除所有机器的 data 和 logs 目录,然后再进行格式化。)

[leokadia@hadoop102 hadoop-3.1.3]$ hdfs namenode -format

相当于将整个记账本清空,重新开始记录

初始化完毕后,源路径就多了两个路径data合logs

其中VERSION里面的东西

(2)启动 HDFS

[leokadia@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh

出现:错误ERROR: Attempting to operate on hdfs namenode as root

输入如下命令,在环境变量中添加下面的配置

vi /etc/profile

然后向里面加入如下的内容

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

source /etc/profile

用jps查看102,103,104

跟之前的集群部署规划一致!

(3) 在配置了 ResourceManager 的节点 (hadoop103 )启动 YARN

[leokadia@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

用jps查看102,103,104

跟之前的集群部署规划一致!

(4)Web 端查看 HDFS 的 NameNode

(a)浏览器中输入:http://hadoop102:9870

(b)查看 HDFS 上存储的数据信息

此外HDFS还给我们准备了一个HDFS web页面

输入hadoop102:9870

其中用的最多的是:

(5)Web 端查看 YARN 的 ResourceManager

需要我在103 上启动 /usr/local/hadoop313/sbin/start-yarn.sh

(a)浏览器中输入:http://hadoop103:8088

(b)查看 YARN 上运行的 Job 信息

7集群基本测试 上传文件到集群

上传小文件

[leokadia@hadoop102 ~]$ hadoop fs -mkdir /input

执行完后,HDFS网页种多了个文件

➢ 传递一个本地文件

[leokadia@hadoop102 ~]$ hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input

➢ 上传大文件

[leokadia@hadoop102 ~]$ hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /

这里面实际只存储了一个链接,实际存储的数据在datanode节点

(2)上传文件后查看文件存放在什么位置

➢ 查看 HDFS 文件存储路径

[leokadia@hadoop102 subdir0]$ pwd /opt/module/hadoop-3.1.3/data/dfs/data/current/BP-1436128598-192.168.10.102-1610603650062/current/finalized/subdir0/subdir0

➢ 查看 HDFS 在磁盘存储文件内容

[leokadia@hadoop102 subdir0]$ cat blk_1073741825

Leokadia is a sophomore in HFUT, whose class is computer innovation experiment 19-1
She is learning Hadoop

(3)拼接

-rw-rw-r--. 1 leokadia leokadia       107 4月  29 22:52 blk_1073741825
-rw-rw-r--. 1 leokadia leokadia        11 4月  29 22:52 blk_1073741825_1001.meta
-rw-rw-r--. 1 leokadia leokadia 134217728 4月  29 22:55 blk_1073741826
-rw-rw-r--. 1 leokadia leokadia   1048583 4月  29 22:55 blk_1073741826_1002.meta
-rw-rw-r--. 1 leokadia leokadia  60795424 4月  29 22:55 blk_1073741827
-rw-rw-r--. 1 leokadia leokadia    474975 4月  29 22:55 blk_1073741827_1003.meta

[leokadia@hadoop102 subdir0]$ cat blk_1073741826>>tmp.tar.gz

查看一个文件,追加到文件后缀

[leokadia@hadoop102 subdir0]$ cat blk_1073741827>>tmp.tar.gz

[leokadia@hadoop102 subdir0]$ tar -zxvf tmp.tar.gz

解压到当前路径

即HDFS存储的文件就在

/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-817129285-192.168.10.102-1619703574964/current/finalized/subdir0/subdir0

路径上

Hadoop高可用,任何一个服务器挂了还有两份副本

(4)下载

[leokadia@hadoop104 software]$ hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./

(5)执行 wordcount 程序

[leokadia@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

Web 端查看 YARN 的 ResourceManager 是这样的,我们发现有了我们刚刚的任务

同时我们注意到有个History

但是点进去无效,因此,我们需要对历史服务器进行配置,这个在后续博客中讲到。

相关内容

热门资讯

游戏“第一省”,坐不住了! 游... 文/冯玲玲游戏大省广东坐不住了。近日,广东发布《关于推动广东网络游戏产业高质量发展的若干政策措施》(...
并购重组预期加持!宜宾纸业股价... 本报(chinatimes.net.cn)记者何一华 李未来 北京报道宜宾纸业(600793.SH)...
德邦证券董事会大洗牌:梁雷任董... 新京报贝壳财经讯(记者胡萌)5月30日,德邦证券公示新一届董事会、监事会人员,公司新一任董事长由山东...
原创 成... 今年以来,成都的舞厅经历了比较长时间的整顿,多数舞厅在5月8日获准重新开门营业,到现在已经稳定运行了...
“小雨伞”母公司手回集团港股上... 5月30日,手回集团(2621.HK)在港交所上市。根据手回集团此前披露,此次IPO,手回集团发行2...
决策曲线拆解分析兼随机森林DC... 临床决策曲线(DCA)解析兼绘制随机森林的DCA曲线(R&...
异动快报:海格通信(00246... 证券之星5月30日盘中消息,13点45分海格通信(002465)触及涨停板。目前价格13.89,上涨...
商丘,三线城市!排名第29位! 第一财经·新一线城市研究所5月28日发布《2025新一线城市魅力排行榜》,在中国内地337座地级及以...
传统药企转型面临两难选择?放弃... 近日誉衡药业(002437.SZ)公告称,公司于2025年5月23日与兴和制药有限公司就佩玛贝特片签...
版权代理吃相太难看,连作者都觉... 一家可能都没授权资格的公司,居然也敢向自媒体发律师函讨要版权费。这事儿听起来是不是有点离谱了?最近,...
V观财报|*ST京蓝因涉嫌信披...   中新经纬5月30日电 30日晚,*ST京蓝公告,收到立案告知书。  公告显示,因涉嫌信息披露违法...
Java基础--日期API学习 一、前言         java标准库中,最早提供了两种处理日期和时间的类ÿ...
ES调试与优化工作笔记 本文主要涉及关于elastcisearch 关于内存,mapping,查...
两券商IT人员曝出老鼠仓,一位... 财联社5月30日讯(记者 高艳云)5月30日,安徽证监局与吉林证监局同日披露罚单,两名券商资深IT人...
Labubu太火了!英国人为抢... 最近在英国,有一样毛绒玩具红到了“出圈”,甚至让人忍不住怀疑:这到底是抢玩具,还是在打仗?这里,说的...
MySQL-分库分表方案 一、业务背景 随着业务量的增长,数据量会随之增长,单机情况下DB服务器会...
堆、堆排序 堆的基本操作操作:         1、插入一个数:          ...
广东1130亿饮料富豪,第二个... 来源 | 深蓝财经撰文 | 杨波近日,东鹏饮料赴港上市的消息持续引发关注。一个市值超1600亿,手握...
赵小中连任,长沙银行还有道“考... 文丨徐风5月21日,长沙银行在召开股东大会的同时完成了董事会的换届选举,赵小中当选第八届董事长,实现...
嘉应制药遭证监会立案调查,直指... 5月28日晚间,老牌药企广东嘉应制药股份有限公司(002198.SZ,下称“嘉应制药”)发布公告,公...
腾讯三大工具:ARC+智影+E... ARC实验室(网站) ARC官网-腾讯 (tencent.com)  ...
个人小站折腾后记 个人小站折腾后记 🏠个人主页:shark-Gao 🧑个...
华夏银行聘任龚伟华为首席信息官... 作者 | 林秋彤编辑 | 杨希新媒体编辑丨实习生 宋语菡5月30日,华夏银行发布公告称,吴永飞因到龄...
ST百利:收到湖南证监局《行政... 5月30日晚间,湖南百利工程科技股份有限公司(ST百利,603959.SH)公告,5月29日,公司收...
天元宠物重大资产重组,最大受益... “宠物代工龙头”天元宠物披露了收购案的最新进展。5月29日晚间,杭州天元宠物用品股份有限公司(下称“...
上手Servlet程序 目录 1、手动打包 1.1、创建项目 1.2、引入依赖 1.3、创建目录 1.4、编写代码 1.5、...
第一次认真周赛总结 T1:一个 整数的 二进制形式中 奇数位上bit==1 和 偶数 位上bit=...
1年进账270亿,深圳中药龙头... 最近,华润三九陷入了“悲喜交加”之中。喜的是,2024年华润三九的营收、净利润皆创新高,营收为276...
论文阅读:MPViT : Mu... 中文标题:基于多路视觉Transformer的密集预测 提出问题 创新点 提出了一种...
前安克创新创始人创业公司冲刺I... 近期,深圳智岩科技股份有限公司(以下简称“智岩科技”)正式启动上市辅导,辅导机构为中金公司。智岩科技...