服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

《阿里巴巴大数据实践-大数据之路》节选推荐

2020-12-30 11:33:38 阅读(174 评论(0)

7月份,有人推荐阿里巴巴刚出版的这本书《阿里巴巴大数据实践-大数据之路》,直到8月份才在亚马逊预售。翻看目录,我很高兴。我出差两天就带着它。我读完了它,因为我在机场呆了12个多小时。使用“产品”这个词有以下原因。首先,市场上有太多的大数据平台技术书籍,如hadoop和spark。然而,他们对如何管理大数据缺乏真正的见解。第二,这本书确实有很多干货和真诚。这显然来自阿里巴巴实践人员的经验,从作者是阿里巴巴的数据技术和产品部门可以看出,第三,内容与作者的专业一致,作者有实践或管理经验,想有资格评价这本书,最后,阿里巴巴的数据量,其大数据平台经过测试,突然透露了一些技术秘密,对于任何对大数据感兴趣的企业或个人,应该学习。因此,使用“产品”不能像阅读普通书籍那样一目了然。我们应该能够找到先进的概念,结合企业或自身的实际情况看到差距,找到可供参考的地方,指导后续的大数据工作。因此,使用“产品”不能像阅读普通书籍那样一目了然。我们应该能够找到先进的概念,结合企业或自身的实际情况看到差距,找到可以从中学习的地方,指导后续的大数据工作。大数据广泛而深刻,就像这本书也是集体创作一样,受作者水平的限制,阅读笔记只能浮出水面,如果你觉得有灵感,你可以买一个,自己品尝一个产品。首先是镇楼图。阿里巴巴大数据系统的系统架构图分为四层:数据采集、数据计算、数据服务和数据应用。以下内容围绕这张图展开。每个人都知道技术含量有多高。如果你在阅读后迷路了,你可以回头看看这张图。作者在这里选择的内容主要是与自己的企业竞争后的特点,一般内容不提及,当然,这只是作者的观点,所以建议阅读本文后阅读原著,可能会得到更多的启示。一、数据采集1、阿里巴巴为web和app端有两个专门的在线主动收集工具Aplus.Js和UserTrack,由于大多数传统公司长期线下运营,web和app的主动收集能力较弱。一般数据管理部门对web或app端的收集基本上是源头推送的文件,对收集没有实际主导地位。内容丰富度大大降低。同时,webjs脚本和appsdk实际上都有一定的技术门槛。由于企业app源受合作伙伴能力的限制,收集能力往往不足,数据质量参差不齐。互联网源日志保留,什么是源本身的要求,什么是大数据管理的要求,需要清楚地思考,如果大数据管理部门想要获得更好的数据,是否考虑向前一步,毕竟,OLAP和OLTP对数据的看法不同,人们不需要为你留下你需要的数据。企业大数据管理部门能否适应互联网的新形式,打破线路分割,在传统数据库、文本、新闻收集的基础上,增加在线主动收集工具,是一个巨大的挑战。企业大数据管理部门能否适应互联网的新形式,打破线路分割,在传统数据库、文本、新闻等收集的基础上,增加在线主动收集工具,是一个巨大的挑战。目前,一些企业提供的企业级大数据收集工具缺乏这条腿。在未来,企业将上网,这种PaaS能力确实需要具备。2、数据同步阿里巴巴实现了oracle归档日志等增量采集,应该比较成熟。他的企业也采用了类似的OGG技术。虽然可行,但成本很高,新股合并成本很高。DSG希望崛起。目前,分库和分中心的表越来越多,数据同步的配置也越来越复杂。阿里巴巴的tddl分布式数据库引擎可以通过建立中间逻辑来整合统一分库和分表的访问,这确实值得学习。许多企业提取的数据源种类繁多,管理复杂。阿里巴巴建立了IDB来实现数据库的统一管理。基于这个元数据能力,阿里巴巴可以利用oneclick实现数据采集的健康配置和批量同步,可以看到管理的深度和厚度。阿里巴巴还对数据漂移提出了解决方案。事实上,每个企业都存在大量的数据漂移问题,如运营商计费单的记录更新时间、日志时间、业务时间和提取时间往往不一致,这将导致业务的逻辑问题。您可能在上个月底12点之前打电话,但业务记录将在本月的账单中。二、数据计算1、Maxcompute离线计算引擎阿里的Maxcompute离线计算引擎弥补了hadoop的许多缺陷。它提供统一授权、资源管理、数据控制和权限分配等综合管理方案,并提供易于使用的客户端支持网络、SDK、CLT、IDE等四种访问模式,集群数量可达数万台,加强安全控制能力,这些都是目前许多商业hadoop版本难以实现的。其计算核心是飞天内核,包括Pangu(盘古分布式文件系统)、Fuxi(伏羲资源调度系统)、Shennong(神农监控模块)等。其计算核心是飞天内核,包括Pangu(盘古分布式文件系统)、Fuxi(伏羲资源调度系统)、Shennong(神农监控模块)等。、作者的企业在统一开发平台方面也有这样的平台,但与阿里巴巴的平台仍有差距。事实上,它是一个功能更完整、系统化程度更好的工具集。(1)云(D2)D2是集成任务开发、调试发布、生产任务调度、大数据运维、数据权限申请管理功能于一体的一站式数据开发平台,能够承担数据分析工作台的功能。这实际上与作者的DACP非常相似,但由于DACP可以连接各种源系统,底层逻辑实际上更复杂,实施更困难,D2基本上只要与Maxcompute连接,这实际上是独立研发的好处,功能可以更强大,更好的体验,但相对封闭。(2)SQLSCANSQLSCAN将总结并形成规则,通过系统和R&D流程保证,提前解决故障隐患,避免用户在任务开发中遇到的各种问题,如SQL质量差、性能低、不遵守规范等。这一功能对于将平台推向前线至关重要,我们的DACP在推广过程中,遇到了很多SQL优化问题,但无论是通过培训还是其他方式,实际上远不如系统固化规则,阿里实践很好,开发平台必须记住不可能每个人都是代码专家,系统解决问题,这是平台规模的核心要素。至于DACP功能太大的问题,作者也明显感受到了阿里巴巴将开发平台分成多个产品的一些想法,这有利于小步快跑的原则,为每个模块取不同的名称,也有利于专项资源的投资。(3)DQCDQC(数据质量中心)主要*数据质量,通过配置数据质量验证规则,在数据处理任务过程中自动监控数据质量。它主要有两个功能:数据监控和数据清洗。数据监控主要是设置规则和报警。有强规则和弱规则。强规则可以阻止任务的执行。数据清洗的方式与我们大致相似。在引入过程中不清洗。入库后,根据配置规则进行清洗。(4)在另一边,通用和重复的操作主要沉淀在测试平台上,以避免人肉,提高测试效率。虽然作者所在企业的大数据自动化测试也有一些,但其功能不够强大。另一边的功能包括数据比较(支持不同集群和异构数据库的表进行数据比较,如数据量、字段统计值SUM、AVG等),从阿里巴巴的统一开发平台可以看到数据分布,它不仅提供了一套从任务开发到运行维护的完整工具,而且特别注重系统的完整性和规则的沉淀。这种平台工具实际上很难由第三方公司提供。除了缺乏自身的研发实力外,传统企业往往由于业务需求的压力而在IT等基础平台层面缺乏研发投资,盲目依靠资源和人力投资来解决一些无法解决的问题,同时,将报告的数量与产品开发人员混合在一起,导致厌倦了应对需求,这是值得深思的。3、实时技术阿里巴巴基于TimeTunnel收集实时数据,其原理与Kafka等新闻中间件相似,采用StreamCompute进行流式处理,与Storm、Stream相似,对于实时统计问题,其提出的一些方案值得借鉴。在商业智能统计实时任务中,资源消耗非常高,即重指标,实时任务追求性能,计算逻辑一般在内存中完成,在重计算中,必须保留重细节数据,当重细节数据达到数亿时,内存不小,怎么办?精确的重量可以通过数据倾斜处理,节点内存压力到多个节点,在模糊的前提下,可以使用相关的重量算法,内存使用到千分之一甚至万分之一,布隆过滤器是一种,简单地不保存细节数据,只保留细节数据对应的哈希值标记位置,当然,哈希值碰撞。在运行过程中,实时任务会计算许多维度和指标,如何保存这些数据?实时任务计算运行中的许多维度和指标。如何存储这些数据?由于大多数实时任务都是多线程处理的,这意味着数据存储必须能够更好地支持多并发读写,并且延迟需要在毫秒内满足实时性能要求。一般采用Hbase、Tair等列数据存储系统。当然,HBASE等系统的缺点也很明显,必须使用rowkey,而rowkey的规则限制了阅读和写作的方式,显然不像相关数据库那么方便,但一般适用于海量数据的实时计算和读写,为HBASE阿里巴巴提供了一些表名和rowkey设计的实践经验。例如,rowkey可以采用MD5 主维度 维度标识 字维度 时间维度 子维度2,比如卖家IDMD5的前四名 卖家ID app 一级类目 ddd 二级类ID,以MD5的前四名为rowkey的第一部分,可以分散数据,平衡服务器的整体负载,避免热点问题。作者一直认为实时数据不需要建模,似乎太天真,可能主要是实时应用在许多企业场景,但阿里显然不同,实时统计能力非常重要,无论是双11屏幕还是阿里业务人员,实时统计指标作为卖点,实时模型和离线模型建模理念一致,如阿里流动模型分为五层,ODS层、DWD层、DWS层、ADS层和DIM层将在作者的后续文章中介绍每层的含义,这里不再描述。

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

“数实融合”下午茶·走进白鹭湾沙龙活动在蓉举行

3月29日下午,由成都市锦江区新经济与科技局、白鹭湾新经济总部功能区管委会主办,万商云集(成都)科技股份有限公司承办的“数实融合”下午茶·走进白鹭湾活动在成都新华之星AI大厦举行。本次活动,白鹭湾新经济总部功能区管委会党工委委员、锦江区新经…查看详情

拍短视频,有这5款软件通通搞定

现在是一个人人都能拍视频的时代,大家的手上几乎人手一部手机,随时都能够打开相机开始拍摄视频。相对于一些比较昂贵的拍摄器材来说,大家现在更喜欢用手机相机去记录身边正在发生的一些事情。而且用手机去拍摄也更加的方便,解决了拍摄器材太过…查看详情

十大防晒霜品牌

  防晒霜可以说是夏季必买的产品之一,现在市场上的防晒霜种类繁多,很多人可能在选择的时候会有些困惑。那么,接下来我就为大家介绍一下十大防晒霜品牌,并详细描述它们的特点和优点。  1.雪花秀  雪花秀是一家来自韩国的高端护肤品牌,其防晒霜淡雅…查看详情

京东全球购是正品吗

  作为中国顶级的电商平台之一,京东全球购已经成为中国消费者用来购买海外正品的主要渠道之一。然而,这种便利的代价是很多消费者会产生疑虑,他们怀疑京东全球购网站上出售的商品是否真的是正品。  京东全球购是否是正品呢?我们来检验一下:  京东全…查看详情

免费炒股软件app排名 手机股票软件排行榜前十名

虽然说最近几年股市行情不是很好,但是炒股的人还是很多的,炒股必备的就是炒股软件,下面万商云集*给大家来介绍下免费炒股软件app排名 手机股票软件排行榜前十名这方面的内容。  1.同花顺  同花顺,一般又称同花顺炒股软件,同花顺手机炒股软件…查看详情

推荐4款常用看图软件,相信很多人都接触过不陌生

因为一些特殊的原因,如果要在家里办公的话,那么就需要通过手机或者是电脑去看一些图片,因为公司在给我们传输任务的时候,是通过图片的方式去传输的,那么,我们需要提前了解一下看图软件哪个好,用软件去看更清晰。1、看图王给人以惊讶的4k*完美画面质…查看详情

如何查询商标是否被注册?掌握这几点就够了

相信经过之前不少网红名字被抢注商标以后,很多企业都意识到了品牌保护的重要性。老话说的好,市场未动,商标先行。也就是说,哪怕自己刚想出产品,还没开始拿到市场上销售的时候,就应当先注册商标了。 图片来源于网络随着现在各企业品牌保护意识的增强,很…查看详情

阿里巴巴成功上市香港,市值超4万亿

2019年11月26日阿里巴巴成功在香港上市,上市当天股票大涨超过6%,市值超过腾讯,达到4万亿,阿里巴巴香港股票代码为9988.HK。阿里巴巴本次香港上市的股票发行价为176港元,募集资金880亿港元,阿里巴巴开盘即涨至187港元,全天基…查看详情

盲目期,选用财务软件试用版,不花冤枉钱!

随着数字时代的到来,企业对财务管理的需求变得越来越多,为了满足工作需求,各个企业纷纷开始引进财务软件。但是面对市面的财务软件繁多杂乱,很多企业都会冒出这样的疑问,“不知道哪款好,也不知道价格会不会超出预算,更不知道哪款适合企业使用”。于是,…查看详情

手机电池品牌有哪些 2022手机电池品牌排名

相信大家平时都在使用手机,很多人手机使用时间长了后就会选择更换电池,锂电池作为日常消耗品的一种,当长时间使用后其使用寿命都会存在一定程度的下降,从而导致如续航不足、充电效率过低、使用效果减弱,下面万商云集*给大家来详细介绍一下手机电池品牌有…查看详情

9类商标注册包括什么?9类明细有哪些?

8类商标分类明细?商标种类分为8大类,分别是: 1.根据商标的结构方式可分为:文字商标、图形商标、图形与文字组合商标。 2.根据商标的用途和作用可分为:商品商标、服务商标。 3.根据拥有者、使用者的不同可分为:制造商标、销售商标、集体…查看详情

网站运营论坛:要干货,在这类平台找可直接吸收的硬知识

论坛是一类人的集合地,是让有共同属性的人发表意见和讨论的地方。网站运营论坛是专业性和功能性要求比较高的论坛类型,在豆瓣这类综合型论坛的 讨论氛围和专业深度并不能满足专业人士和学习者的需求。伴随网络发展,很多论坛已经逐渐被“平台”替代,毕竟网…查看详情

游戏视频剪辑软件有哪些 游戏视频剪辑软件排行榜

  现在很多的游戏博主都在做游戏类自媒体,对于游戏视频的剪辑需求也是很大的,下面*就给大家来详细介绍一下游戏视频剪辑软件有哪些 游戏视频剪辑软件排行榜这一块的内容,希望能帮助到大家。  游戏视频剪辑软件有哪些  1、《快剪辑》  这里有…查看详情

怎么查注册商标能不能用

  怎么查注册商标能不能用?现在越来越多的企业或个人都会注册代表自己产品的商标,这样可以提升自己的品牌知名度。所以商标在提升我们品牌影响力中是不可或缺的一部分,商标在在企业发展中扮演这么重要的角色,那么企业商标注册后怎么查询是否已注册成功?…查看详情

B2B大型网站建设的成本和B2B运营模式

B2B大型网站建设一般是指建设B2B电子商务网站,这类网站是运用互联网技术搭建线上交易平台,支撑企业与企业之间的电子商务交易。主要涉及到的功能有发布信息、订货收货、支付票据、传送接收、配送监控等。 图片来源于网络● B2B大型网站建设的成本…查看详情

最新文章