分析百度开放云分布式计算平台对大数据的处理
2020-12-31 10:12:21 阅读(181) 评论(0)
百度开放云总经理刘洋认为,当今世界正面临着技术突破带来的全行业升级。在这场商业剧变中,背后有三个重要的问题「重新定义」:首先,重新定义云计算「IT」。它改变了企业所需的IT资源的所有权和供应模式。基于互联网资源管理平台,传统企业的IT模式完全改变,为新的商业创新提供了可能性;第二,大数据被重新定义「资产」,与以往的重资产相比,企业在经营中不断生成的数据将成为企业未来继续生存和保持竞争力的砝码;第三,人工智能被重新定义「效率」,传统计算机通过语音、图像、视频、自然语言识别和智能处理等技术,具有更强的能力,大大提高了工作效率。基于以上三个重新定义,百度开放云的重新堆栈也分为云计算层、大数据应用层和人工智能层三层。基于以上三个重新定义,百度开放云的重新堆栈也分为三层:云计算层、大数据应用层和人工智能层。处理大数据只有四个步骤:收集:原始数据类型、格式、位置、存储、及时性等。从异构数据源中收集数据,并将数据转换为相应的格式,便于处理。存储:根据成本、格式、查询、业务逻辑等需要,收集到的数据需要存储在适当的存储中,以便进一步分析。变形:原始数据需要变形和增强才能适合分析,如网页日志用省市取代IP地址、传感器数据纠错、用户行为统计等。分析:whathapened通过整理的数据分析、whyithappened、whatishapeningwhatwillhappen,帮助企业做出决策。事实上,如果涉及到“大数据”,我们必须提到百度最大的业务搜索。百度搜索已经收录了世界上一万多亿的网页,每天响应中国网民几十亿次的要求。此外,百度还有20多个用户超过1亿的产品线,每个产品底部的大规模数据处理都需要使用百度团队维护的大数据处理平台。百度分布式计算平台:Mapreduce首先介绍了离线引擎优化的主要离线计算模型——MapReduce,自2007年以来,百度引进了Hadoop0.15.1,随后发展迅速,2011年百度MR单集群达到5000台,到2013年已达到1.3万台,这也是迄今为止世界上最大的单集群。Hadoop全集群规模为10万量级,运营量达到100万量级,日均CPU利用率超过80%,远远超过行业同行。百度开云(http://cloud.baidu.com)世界领先的大规模集群调度、资源隔离等技术能力。百度在Hadoop性能分析方面除了不断扩大规模外,还进行了大量优化。根据2013年的测试结果,百度内部MR的性能比开源Hadop提高了30%。典型的优化,如Hadoop中的Shufle,百度将其制作成统一的Shufle服务,不再占用Map或Reduce槽。例如,SSE向量化用于关键热点函数。2014年,百度继续对计算引擎进行大幅优化,NativeC DAG引擎正式上线。下图是4轮MRJob实现的典型业务流示例。DAG引擎上线后,可以优化为DAG操作,避免磁盘IO和网络IO引入三个Reduce写多个副本,避免两个Map读HDFSIO和处理成本。下图是SQL计算表示层翻译的真实业务。基于MR引擎,SQL将翻译成25个MRJOB。如果百度优化为DAG,可以避免多次磁盘IO操作。优化后,运行时间直接缩短到1小时,优化前后的差异非常明显。2014年,百度对Shuffle进行了重大重构。实习生完成的Demo以Baidusort的名义参加了2014年SortBenchmark大数据排名国际大赛,并获得冠军(百度2015年不再参加,其他国内公司通过同样的技术通过更大的集群刷新记录)。新的Shuffle技术于2015年全面推出。基于磁盘Pull模式的Hadoop默认Shufle实现了计算过程显式、Shuffle、Reduce过程;Baidu开发的新Shufle采用内存流Push模式,Map端完成部分记录处理后,直接将计算结果从内存推到下游。例如,Map处理256MB输入数据,在内存流Shufle模式下,处理100条记录后,通过内存直接推到下游,形成流水线处理。不再有显式的Shufle阶段。目前,Shuffle组件是通用组件,正在逐步推广到其他分布式计算平台。百度分布式计算平台:在系统架构演变之前,我们重点介绍了百度开放云BMR服务中涉及的规模和性能优化思路和效果。接下来,让我们与您分享百度在整体架构中遇到的挑战和优化思路。在2012年的系统架构中,主要有两个离线计算平台,主要是Mapreduce模型BMR,主要是MPI/BSP模型BML。从下面可以看出,Mapreduce和MPI模型的底层硬件差别很大。Hadoop分布式文件系统的多副本和强大的故障处理机制使Raid卡完全不必要。非常适合使用多个超大容量SATA硬盘。MPI差别很大,MPI是一个消息传输框架,在设计之初就没有考虑过多的异常处理,所以对底层系统的可靠性要求很高。百度采用了非常高配置的服务器,如带Raid卡的Sas硬盘、超大内存、万兆互联等。BMRHadoop由大量SATA硬盘服务器组成,存储系统为HDFS,百度在资源调度层面有自主研发的ARK调度器(类似于社区Yarn)。在BML大规模机器学习平台上,支持的业务样本超过数百亿计量级,特征规模远超过100亿。在操作机器学习时,百度需要先启动Mapreduce,然后将数据从HDFS分发到每个MPI节点,这对网络带宽有很高的要求。虽然系统部门的同事不断改进内网带宽,但BML平台层面也在思考如何解决跨MR和MPI集群之间日益严重的网络带宽问题。另一个需求是:MPI是一个事务调度模型。例如,一个业务需要200台机器。如果此时平台只有199台机器是免费的,实际上很难使用(除非修改提交参数,但输入数据重新分块处理更为复杂)。此外,MPI计算通常分为计算、传输、计算等阶段(即BSP模型),因此资源利用波动较大,如CPU计算阶段、网络空闲、网络传输或全球同步阶段、CPU空闲。为了解决这个问题,百度将IDLE计算引入MPI集群,IDLE业务资源占用完全可控。Mapreduce等典型IDLE任务将进一步加剧MR集群和MPI集群之间的网络带宽问题。基于以上考虑,百度正式用高配置存储服务器替换MPI底层硬件,硬盘同构,文件系统采用HDFS,BML算法通过HDFS输入输出,不再是本地文件系统。BML机器学习执行发动机水平,百度基于MPI包装DVCE(DistributedVectorComputingEngine)分布式向量计算引擎屏蔽了MPI过低的编程接口,并通过高层抽象自动将其翻译成MPI任务。这是百度第二代专门为“并行计算”开发的系统框架。2014年,BML机器学习执行引擎迁移到ELF第三代并行计算框架。ELF采用Parameterserver架构,大大降低了机器学习算法的开发成本。与百度第二代框架DVCE相比,开发效率大大提高。在离线计算方面,NativeC已经完成 DAG引擎上线,百度内部叫DCE。(DistributedComputingEngine)。2014年,BMR和BML底层采用Matrix完成资源分配和隔离。基于业务需求的特殊性,其他平台,如小批量计算系统Taskmanager和毫秒计算延迟Dstream系统,采用独立的资源隔离和调度系统。2015年的架构改进主要是将所有计算模型迁移到Matrix Normandy架构。Normandy与社区Yarn调度接口兼容,开源社区新兴计算平台可以轻松访问百度的计算生态。百度已经介绍了百度大数据分析和挖掘平台的主要底层引擎和架构。接下来,让我们谈谈最新的想法。系统底层是IDC硬件,然后是Matrix,然后是Normandy,然后是几个主要引擎。介绍了硬件、调度、存储等底层结构的统一。事实上,每个系统的外部结果都有自己的界面。如果你想使用MR,许多人写MR程序是直接调用Hadoop本地界面,并配置多个参数。一些业务还需要流动系统来完成日志清洁,在Mapreduce模型批预处理后,然后通过ELF完成机器学习模型培训,最后通过Mapreduce模型完成模型评估,可以看出业务需要跨越多个模型,需要业务线学生熟悉许多模型和平台,每个模型都有自己的特点和接口。只有充分了解模型的细节和接口,才能真正充分利用模型。于是百度正式立项BigFlow项目(原项目名DataFlow,图片未来及修改),屏蔽了模型的细节。平台自动决定选择合适的并发度,甚至智能选择该翻译成哪个计算模型。BigFlow可以支持多个不同的计算引擎(每个引擎在其合适的领域达到极致),充分发挥每个引擎的性能和功能。因此,用户可以使用相同的接口对应不同的任务。由于采用高层抽象,业务开发效率大大提高,代码量大大降低,维护成本大大降低。BigFlow集成是一种常见的优化方法,因此平台的有效资源占用将大大提高。百度开放云-大数据 智能最后,简要介绍百度开放云。2014年,百度正式决定正式提供服务内部业务多年的云计算技术,即百度开放云,对应官方网站http://cloud.baidu.com。在百度开放云大数据方面,BMR已经对外开放,而更多的大数据分析和服务尚未对外开放。BMR集群可以按需部署,用户专属。更重要的是,Hadop/Spark平台与开源完全兼容,基于Hadoop开放云客户、Spark、Hbase等已实现的大数据业务几乎可以顺利迁移到云上,无需修改。Palo,多维分析服务,与MySQL网络协议完全兼容,因此,客户朋友熟悉的MysqlClient工具都可以使用。同时,Palo支持JDBC、如果现有程序使用JDBC的ODBC编程接口、ODBC,那么迁移成本几乎为零。最后,我们可以看到它与行业主流BI工具商业分析工具对接,如Tableau、Saiku、BIEE、R。最终介绍了机器学习云服务BML,BML中提供的深度学习技术,曾获得2014年百度最高奖项。BML提供端到端解决方案,其算法多年来一直为百度内部业务服务,如网页搜索、百度推广(凤凰巢、网络联盟CTR估计等)、百度地图、百度翻译等。使用开放云BMR和BML、Palo等,可立即、直接享受与百度搜索同等质量的大数据分析与挖掘服务!
推荐阅读
- 有哪些专业高效的进销存软件破解版推荐
现在有不同的企业规模不一样,对于自己公司的管账职能要求也不一样,为了追求工作起来方便,所以很多企业会需要用到很多进销存软件,那么今天就来推荐一下进销存软件破解版。 1、星空商务进销存通用版 这款星空商务进销存通用版软件其实…查看详情
- 成本低传播广 一站式网络推广平台为企业赋能
一站式网络推广平台功能包含新闻媒体、自媒体、短视频、软文、抖音KOL、小红书博主、百科、问答、贴吧、论坛、友链、文案代写等,以“网络技术驱动全网推广”为使命,自主发布、自主下单、自主接单,依托云计算技术、平台大数据、订单交易数据和AI智能网…查看详情
- 生产管理ERP—让生产管理回归简单
内部信息难共享、部门协作不流畅、客户满意度低,是当前生产管理企业面临的巨大困扰。在互联网技术的推动下,生产管理ERP应运而生,让采购管理、项目管理、财务管理、人力资源管理、质量管理等环节走上智能化、自动化道路,真正将管理做到“看得见,管得着…查看详情
- 2021玄幻小说排行榜前5有哪些?哪些小说软件能免费读?
现在越来越多的年轻人都喜欢看动漫、读小说,特别是近几年很多玄幻类小说的IP都开始影视化、动漫化,但是由于动漫的更新进度较慢,很多粉丝都想先一睹原著小说为快。所以,小万整理了2021年玄幻小说排行榜前10的小说,以及能够读到这些小说的APP,…查看详情
- 2021最新企业能源管理系统公司排名
备受关注的能源管理系统到底有什么用?能源管理系统可以帮助工业生产企业在扩大生产的同时,合理计划和利用能源,降低单位产品能源消耗,提高经济效益,那么2021最新企业能源管理系统公司排名到底是一个什么样的情况?一起来看看。 1. 启迪思安能源管…查看详情
- 网络版权登记协助侵权纠纷解决 快来了解一下!
网络著作权也是受到网络著作权法保护的,网络著作权法规定了侵犯网络著作权的赔偿标准,发生网络著作权侵权纠纷时,侵权人应当承担因此而遭受的损失。想要进行赔偿需要先对侵权行为进行认定,网络版权登记所取得的版权证明可以作为有利证据,那么,网络著作权…查看详情
- 网站备案怎么办理?详细流程几步搞定!
尽管我国早已启动了网站备案工作,但许多网站仍然处于未备案的状态,这就让不法分子钻到漏洞,对网站发起攻击。目前,所以使用国内服务器的网站都必须进行网站备案,备案不仅是为了保障网站经营者和网民的权益外,在一定程度上也能避免网站成为攻击者的目…查看详情
- 淘宝目标客户群体是哪些?
优质答案(1) 全店。淘宝现在的市场几乎都是曾经购买过商品的买家,每个人都有不同的购买习惯,风格偏好,购买能力,这也是缤纷缭乱的淘宝商品中给买家的便利,每个买家都被打好标签,根据分发的流量不同,分发的宝贝也不同,具体点说 就是淘宝数…查看详情
- 想要入坑视频制作的小伙伴一定要看完本文
现在市面上有许多制作视频的软件,很多想入坑的网友都不知道怎么选择合适的软件,下面我为大家整理出来了制作视频的软件哪个好。想要入坑的小伙伴可以来看看了。 1.会声会影 会声会影是一个综合能力十分强大的视频编辑软件,因此我们把它…查看详情
- 幼儿学知识软件哪个好 幼儿学知识软件排行榜
孩子在成长期的教育是很重要的,现在市面上有很多的孩子学习的软件,下面小编就来给大家详细介绍一下幼儿学知识软件哪个好 幼儿学知识软件排行榜这一块的相关内容,希望能帮助到大家。 幼儿学知识软件排行榜 1、《叽里呱啦》 多元化的学习…查看详情
- 企业搭建网站 | 申请域名该去哪?
申请域名该去哪?其实有很多的渠道都可以进行域名申请,主要分为国内和国外两大平台。那么如何判断自己应该选择国内或国外平台呢?主要根据你后续搭建的网站在哪儿运营做判断。接下来小万主要给大家讲讲在国内平台如何申请域名以及它的几个步骤。 图片来源于…查看详情
- 商标注册后如何申请共有?以下两个方法可分别适用不同的情况
商标注册可以由多个主体共同申请办理,这样申请下来的商标专用权由多名申请人共同拥有。这是在提出商标申请的时候,就明确了该商标为共有商标,那么,商标注册后如何共有呢?图片来源于网络共有商标的概念:两个以上的自然人、法人或者其他组织可以共同向商标…查看详情
- 推荐几款免费的电脑录音软件,好用又方便
随着声优的出现,好多用户都争相模仿,这就用到了电脑录音软件了,但是在哪里找免费的电脑录音软件呢?今就让小编我给大家推荐几款免费的电脑录音软件,感兴趣的小伙伴一起来看一下吧。 1.迅捷录音软件 该软件是一款专门录制音频的软件…查看详情
- 免费ppt模板下载网站有哪些?
如何在优品PPT里面下载模板?可以在优品PPT的官网上下载模板。 因为优品PPT是一个提供PPT模板资源的网站,官网上提供了大量的免费和付费模板供用户下载使用。 用户可以通过以下步骤在官网上下载模板:首先,进入优品PPT官网;其次,在首…查看详情
- 数据库sql语句大全实例
查询数据库中有哪些表的sql语句?一、查询指定模式下的所有表db2LISTTABLESFORSCHEMA模式名二、查询当前模式下所有表及信息db2selecttabnamefromsyscat.tableswheretabschema=CU…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00
















































注册有好礼



