hadoop2.x基于yarn模式的datanode节点挂了恢复处理 | AiTi修炼|重剑无锋,拈花微笑
Header
Header

hadoop2.x基于yarn模式的datanode节点挂了恢复处理

    Hadoop系统的开发、建设、运维与应用是一个发展的过程,需要一步步迈进。然而Hadoop的版本更新变化快,开源与商业服务各有优缺点,里面的水很深的,坑比较多,只有实践过的人才会深刻体会。对于很多团队而言Linux是一道障碍,毕竟并不是团队中所有的人都会使用熟练Linux的命令。在生产应用的过程中或多或少会遇到各种各样的问题——有时候可能是不同操作系统的JVM有隐藏的bug,也可能是Hadoop的代码逻辑或者设计导致问题,甚至可能是分析语言的脚本或者JDK的Bug。而解决问题的秘密就是Hadoop log日志+源码。


     当然了Hadoop Log对普通用户本身来说是很大的一个挑战,要去解决你所遇到的问题,就要去看日志,去分析Hadoop的一个源码,排错,这些是最考验人的事。在解决问题的过程中,有时需要翻源码,有时会向同事、网友请教,遇到复杂问题则会通过mail list向全球各地Hadoop使用者,包括Hadoop Committer(Hadoop开发者)求助。在获得很多人帮助后,自己将遇到问题和心得整理成文,希望相关的总结可以对那些焦头烂额的Hadoop新手们有所帮助,少走笔者的弯路。

——写在hadoop学习、开发、运维、应用相关文章前面

    监控发现hadoop2.x集群在yarn模式下有datanode节点挂了,处于dead状态需要对其进行快速恢复处理,为了保障分布式平台的可用性,一般情况下不需要停止整个集群,只需要对挂了的datanode节点进行重启即可,具体的处理方法如下:

    一、关闭处于dead状态节点的相关hadoop进程,具体命令如下
1、关闭datanode进程;
sbin/hadoop-daemon.sh stop datanode
2、关闭该节点yarn资源管理进程
sbin/yarn-daemon.sh stop nodemanager 
    二、重启dead状态节点的相关hadoop进程(同样适用于动态新增节点启动),具体命令如下 
1、重启回复datanode进程;
sbin/hadoop-daemon.sh start datanode
2、重启回复该节点yarn资源管理进程
sbin/yarn-daemon.sh start nodemanager 
3、使用jps命令查看重启进程情况

6847 DataNode
7574 NodeManager
7780 Jps 
    如果是主节点挂了,则可以考虑将整个集群重启,一般是在sbin/start-all.sh就可以了,当然也可以在主节点下执行以下命令。

1、启动集群namenode节点进程
sbin/hadoop-daemon.sh start namenode
2、启动集群secondarynamenode节点进程
sbin/hadoop-daemon.sh start secondarynamenode
3、启动yarn资源管理进程
sbin/yarn-daemon.sh start resourcemanager

    三、最终可以通过hadoop自带的命令或者web UI管理界面来检查节点的情况运行情况

1、通过dfsadmin -report命令可以查看集群各个节点当前的运行状态信息,判断节点是否恢复
hadoop dfsadmin -report

rscala.com版权所有,本文hadoop2.x基于yarn模式的datanode节点挂了恢复处理转载请注明出处:http://rscala.com/index.php/305.html

该文章归档分类于 hadoop实践

One Response



Leave a Reply to spark8 Cancel reply

电子邮件地址不会被公开。 必填项已用*标注

*

code