详细介绍云梯YARN集群的 技术实现与发展状况
2020-12-31 11:52:21 阅读(179) 评论(0)
阿里巴巴作为中国最早使用Hadop的公司之一,已经开启了ApacheHadop2.0时代。阿里巴巴的Hadoop集群,即梯形集群,分为存储和计算两个模块。计算模块包括MRV1和YARN集群,共享存储HDFS集群。云梯YARN集群不仅支持Mapreduce,还支持Spark、MPI、RHive、计算模型,如RHadoop。本文将详细介绍云梯YARN集群的技术实现和发展。MRV1和YARN集群共享HDFS存储技术以服务为起点,云梯集群将Hadoop分为存储(HDFS)服务与计算(MRV1和YARN)。这两个计算集群共享HDFS存储集群,这是怎么做到的?在引入YARN之前,基于ApacheHadoop0.19.1-dc版本的云梯Hadoop,并添加了许多新功能。此外,它还兼容了ApacheHadop0.19、0.20、客户端CDH3版。为了保持对客户端的友好,云梯服务端升级总是保持与原客户端的兼容性。此外,为了方便访问数据,阿里巴巴的存储集群是一个单一的大集群。YARN的引入不应迫使HDFS集群被拆分,但YARN是基于社区0.23系列版本,不能直接访问梯子HDFS集群。因此,实现YARN集群访问云梯的HDFS集群是引入YARN后需要解决的第一个技术问题。Hadoop代码主要分为Comon、HDFS、三包Mapred。Common包括公共类,如I/O、通信等类。HDFS部分包括HDFS相关类别,依赖Common包。Mapred部分包括Mapreduce相关代码,依靠Common包和HDFS包。开发人员主要做以下工作,以尽量减少对云梯HDFS的修改。用梯子的HDFS客户端代码代替0.23中的HDFS,形成新的HDFS包。对0.23新的HDFS包进行了少量修改,使其能够在0.23的Common包上运行。对0.23新的HDFS包进行了少量修改,使0.23的Mapred包能够在新的HDFS包中运行。hack用于云梯Common包的通信部分,使其与0.23Common兼容。图1Hadoop代码架构新的云梯代码结构如图1所示,如下所示。原HDFS用于服务端存储部分。在MRV1计算集群中提供原MRV1服务。YARN集群提供更丰富的应用服务。客户端云梯现有客户端不做任何修改,继续使用原有服务。使用YARN服务需要使用新的客户端。为YARN切换云梯MR服务,服务端只有MRV1,客户端只有老版本的客户端。MRV1与YARN共存(MRV1资源逐渐转移到YARN),如果客户端需要使用MRV1服务,则保持客户端不变;如果需要使用YARN服务,则需要使用新的客户端。YARN只留在服务端,客户端只有新版本的客户端。通过以上修改,云梯开发人员以较小的修改实现了YARN对云梯HDFS的访问。云梯版YARN集群实现了SparkonyARN、Hive、Spark、MPI、RHive、支持RHadoop等应用。云梯集群目前的结构如图2所示。Spark已成为YARN集群除Mapreduce应用外的另一个重要应用。Spark是一个分布式数据快速分析项目。其核心技术是弹性分布式数据集(ResilientDistributedDatasets),它提供了比Mapreduce更丰富的模型,可以在内存中快速迭代数据集,以支持复杂的数据挖掘算法和图形计算算法。Spark的计算调度模式,从Mesos到Standalone,即自建Spark计算集群。虽然Standalone的性能和稳定性有所提高,但毕竟自建集群资源少,需要从梯子集群复制数据,无法满足数据挖掘和计算团队的业务需求。SparkonyARN允许Spark计算模型在云梯YARN集群上运行,直接读取云梯上的数据,充分享受云梯YARN集群丰富的计算资源。理论上,Sparkonyarn功能从Spark0.6.0版本开始支持,但实际上还远未成熟。经过长时间的数据挖掘和计算团队压力测试,修复了一些相对关键的bug,以确保Sparkonyarn的稳定性和正确性。SparkonYARN的操作执行机制显示在图3中。图3Sparkonyarn框架基于Yarn的Spark操作首先由客户端生成操作信息,并提交给resourcemanager。resourcemanager在nodemanager报告时将appmaster分配给nodemanager,nodemanager启动sparkappmaster,Sparkappmaster启动后的初始化作业,然后向Resourcemanager申请资源,Sparkappmaster通过RPC让Nodemanager启动相应的Sparkexecutor,Sparkexecutor向Sparkappmaster汇报并完成相应的任务。另外,SparkClient将通过AppMaster获得工作状态。此外,Sparkclient还将通过Appmaster获得操作状态。目前,数据挖掘和计算团队已经通过SparkonyARN实现了MLR、Pagerank和JMeans算法,其中MLR已作为生产操作运行。云梯YARN集群维护经验分享云梯YARN维护过程中遇到的问题很多,很有可能在YARN集群维护中遇到。这里有两个典型的问题及其解决方案。问题1问题描述:社区的CPU隔离和调度功能需要在每台NodeManager所在的机器上创建与用户帐户相对应的Linux帐户。但是阿里云梯集群有5000多个账户,是否需要在每台Nodemanager机器上创建这么多Linux账户;此外,每次创建或删除Hadop用户时,还应在每台Nodemanager机器上创建或删除相应的Linux账户,这将大大增加操作和维护的负担。问题分析:我们发现CPU的隔离并不依赖于Linux账户,这意味着即使同一账户创建了两个过程,Cgroup也可以隔离CPU,但为什么社区要在每台Nodemanager机器上创建账户呢?原来这是为了让每一个Container都以提交aplication的账户执行,防止Container的Linux账户权限过大,保证安全。然而,云梯集群很久以前就分为账户。启动container的Linux账户统一为普通账户。该账户权限小,用户为公司内部员工,安全性能满足需求。解决方案:修改container-executor.c文件,防止其修改container的启动账户,并使用统一的普通Linux账户(无sudo权限)运行container。这样既能保证安全,又能减少运维工作量。问题2问题描述:MRAplicationMaster初始化缓慢,部分作业MRAplicationMaster启动需要一分钟以上。问题分析:通过检查MRAplication-Master的日志,发现分析Rack上消耗了一分钟的初始化时间。从代码分析来看,MRAplicationMaster启动时需要初始化Taskatempt,然后需要分析split信息中的Host,生成相应的Rack信息。目前,云梯分析Host的方法是通过调用外部Python脚本进行分析,每次调用约需20ms。由于云梯HDFS集群非常大,有4500多台机器。如果输入数据分布在每个Datanode上,则需要4500台分析Host×20ms=90s;若作业输入数据较大,且文件备份数为3,那么输入数据很可能会分布在集群的大多数Datanode上。解决方案:开发人员通过在Node-Manager上添加配置文件,包括所有Datanode的Rack信息,MRApp-LicationMaster启动后,加载此文件,防止外部脚本分析频繁调用。解决方案:开发人员通过在Node-Manager上添加配置文件,包括所有Datanode的Rack信息,MRApp-LicationMaster启动后,加载此文件,防止外部脚本分析频繁调用。这大大加快了MRAplicationMaster的初始化。此外,云梯开发人员还解决了一些会让ResourceManager不工作的bug,并将其贡献给ApacheHadop社区。在云梯YARN集群的建设和维护中,云梯开发人员遇到并解决了许多问题。分析和解决这些问题首先需要熟悉代码,但代码量巨大。我们如何快速熟悉它们?这需要团队的合作。团队中的每个人都负责不同的模块,阅读后轮流分享,可以加快熟悉代码的速度。此外,Hadoop的优势在于它可以利用社区的力量。当你遇到问题时,你可以先去社区找到答案,因为社区已经解决了很多问题,充分利用社区可以大大提高工作效率。目前,云梯YARN集群已试运行,并拥有MRV2、Hive、Spark、RHive、RHadop等应用。云梯YARN集群的优点是支持更丰富的计算模型;共享云梯最大的存储集群,访问方便快捷;AppHistory信息存储在HDFS上,可以方便查看各种应用程序的操作历史;与MRV1集群相比,云梯YARN可以支持更大的集群; 与MRV1集群相比,云梯YARN集群支持内存和CPU调度,资源利用将更加合理。未来,云梯将把大部分业务转移到云梯YARN集群。未来,云梯将将大部分业务转移到云梯YARN集群。对于YARN版本,云梯将增加资源隔离和调度,增加Storm、支持Tez等计算模型,优化YARN性能。
推荐阅读
- 【解读】网站建设模块广义上分为4个,从细节方面分为5个
如今越来越多企业选择搭建网站来实现企业及企业产品或服务的宣传和推广,从而提高销量获得收益。企业要搭建网站,要通过搭建网站来获得好的效果,需先了解网站建设模块有哪些,哪些模块是必不可少的。 图片来源于网络 ▲ 网站建设模块可从整个网站建设过…查看详情
- 网络广告推广怎么做?都有哪些渠道?
现如今,网络广告推广的方式有很多种,企业只需要根据实际情况来选择适合自己的推广方法,如此才能达到最好的推广效果。那么接下来,小万将为大家介绍网络广告推广怎么做,都有哪些渠道。 图片来源于网络 ▍ 1. 网络广告推广怎么做?注意以下五点内容…查看详情
- win7怎么添加打印机
win7hp1010打印机怎么添加hp1015驱动?两个办法,一个是你在系统里选择添加打印机,直接在里面找到驱动安装,一个就是你在网上下载现成的驱动安装包直接安装就可以了window10怎么添加打印机到电脑上没有厂商怎么办?1、点开始---…查看详情
- 2022好用的免费建站系统
随着网络技术的发展,现在搭建一个网站也不但是困难的事情了,但是大家也有新的需求,那就是免费使用,这样的确能够减少经济的压力,也适合新手人群的选择,那么2022好用的免费建站系统都有哪些呢?关于这个问题,还是通过文章来了解吧。1、Discuz…查看详情
- 字符串是什么意思 哪些属于字符串
相信很多没用接触到计算的朋友都不知道字符串是什么意思,在计算机技术领域比较常用,在编程代码这块也比较常见,下面万商云集*给大家来详细介绍一下字符串的相关常识。 什么是Python中的字符串? 我们许多熟悉C,C++等编程语言的人都会得到…查看详情
- 简单方便的电脑桌面整理软件,时刻保持桌面整洁干净
大家的电脑上面是不是有非常多的文件呢,日积月累,电脑上的文件越来越多,看起来乱七八糟的,这时候我们可以用到电脑桌面整理软件。我为大家整理了以下电脑桌面整理软件推荐。 1.360安全桌面 360安全桌面是日常必备软件,简单好用…查看详情
- 做网站多少钱
建设一个网站的成本会由多种因素而决定,包括网站的规模、复杂性、功能需求以及所雇用的专业人员的经验水平等。一般来说,一个简单的静态网站可能在数百美元到数千美元之间。然而,如果需要更多的功能、定制设计和动态内容,成本就会增加。 以下是创建一个网…查看详情
- 新顶级域名申请的优势在哪里?
在这个互联网时代,搭建网站早成了尤为平常的一件事,无论是企业还是个人,对此都并不陌生。由于越来越多搭建网站的需求,域名的资源也逐渐减少,于是出现了——新顶级域名。今天,小万就给大家讲讲关于新顶级域名申请的一系列事项。 图片来源于网络由于越来…查看详情
- 如何提高企业网站的吸引力? 提高企业网站吸引力方法技巧
如今的互联网时代,企业网站建设早已不是什么稀罕事了,想要在互联网上有一定的业务发展,一个网站是少不了的。而如今的网站就如雨后春笋一般,想要在这么多的企业网站中脱颖而出,肯定是需要具备别的网站没有的。也就是吸引力,那么企业网站建设如何提升…查看详情
- 好书推荐排行榜-你看过几本
“读一本好书就是遇一个高尚的人谈话”,至今很多人还维持着阅读文章书籍的喜好,书对于这些人而言就是生话的必须品,是心灵的药物,阅读文章哪样的书籍是重要,我替阅读者建议一下子几本经典的书。1.《追风筝的人》说起是经典的书,怎么可以少了这一册呢?…查看详情
- 手机电池检测软件有哪些 电池检测软件排行榜
现在很多人的手机在使用了一段时间后都会出现电池老化的现象,现在市面上也有那种检测电池电量的工具,下面*就给大家来详细介绍一下手机电池检测软件有哪些 电池检测软件排行榜这一块的相关内容,希望能帮助到大家。 电池检测软件排行榜 1、…查看详情
- 不用vip看电视剧的软件 免费追剧软件不要vip有哪些?
相信很多的小伙伴的周末都是在追剧中度过的,但是目前市面上很多的影视软件都是需要充会员的,市面的完全免费的追剧软件很少,下面万商云集*给大家来详细介绍一下不用vip看电视剧的软件 免费追剧软件不要vip有哪些这方面的内容,希望能帮助到大家免费…查看详情
- 电商平台如何搭建?打通内部系统是关键
当下的电商平台搭建与前两年有一些区别,不再是简单的交易,涉及到更多企业电商业务的发展战略规划和电商网站本身的运营发展。中小企业在研究电商平台如何搭建的时候,最应该关心的不是基础功能是否完善,而是电商平台的运营维护、仓储系统和营销推广等。图片…查看详情
- 2021最新TOP10超市收银系统排行榜
超市遍布我们的生活,俨然已经成为了生活的一部分,连锁超市的繁荣发展,同样也带起了超市收银系统的兴起,市面上也出现了各种各样的收银系统软件,有收费的、有免费的、有试用的,很多超市收银系统有很大的故障,所以超市老板选择收银系统是一定要慎重选择。…查看详情
- 什么是关键词组合 关键词组合方式有几种
相信很多做SEO和做电商的都知道关键词组合,但是很多人对关键词组合不是很熟悉,下面万商云集*给大家来详细介绍一下什么是关键词组合,希望能帮助到大家了解到关键词组合这一块的内容。下面万商云集*就以电商关键词组合为例子。 最近有很多粉丝说他的…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
邮箱:zjb@iwanshang.com
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00















































注册有好礼



