《阿里巴巴大数据实践-大数据之路》节选推荐
2020-12-30 11:33:38 阅读(177) 评论(0)
7月份,有人推荐阿里巴巴刚出版的这本书《阿里巴巴大数据实践-大数据之路》,直到8月份才在亚马逊预售。翻看目录,我很高兴。我出差两天就带着它。我读完了它,因为我在机场呆了12个多小时。使用“产品”这个词有以下原因。首先,市场上有太多的大数据平台技术书籍,如hadoop和spark。然而,他们对如何管理大数据缺乏真正的见解。第二,这本书确实有很多干货和真诚。这显然来自阿里巴巴实践人员的经验,从作者是阿里巴巴的数据技术和产品部门可以看出,第三,内容与作者的专业一致,作者有实践或管理经验,想有资格评价这本书,最后,阿里巴巴的数据量,其大数据平台经过测试,突然透露了一些技术秘密,对于任何对大数据感兴趣的企业或个人,应该学习。因此,使用“产品”不能像阅读普通书籍那样一目了然。我们应该能够找到先进的概念,结合企业或自身的实际情况看到差距,找到可供参考的地方,指导后续的大数据工作。因此,使用“产品”不能像阅读普通书籍那样一目了然。我们应该能够找到先进的概念,结合企业或自身的实际情况看到差距,找到可以从中学习的地方,指导后续的大数据工作。大数据广泛而深刻,就像这本书也是集体创作一样,受作者水平的限制,阅读笔记只能浮出水面,如果你觉得有灵感,你可以买一个,自己品尝一个产品。首先是镇楼图。阿里巴巴大数据系统的系统架构图分为四层:数据采集、数据计算、数据服务和数据应用。以下内容围绕这张图展开。每个人都知道技术含量有多高。如果你在阅读后迷路了,你可以回头看看这张图。作者在这里选择的内容主要是与自己的企业竞争后的特点,一般内容不提及,当然,这只是作者的观点,所以建议阅读本文后阅读原著,可能会得到更多的启示。一、数据采集1、阿里巴巴为web和app端有两个专门的在线主动收集工具Aplus.Js和UserTrack,由于大多数传统公司长期线下运营,web和app的主动收集能力较弱。一般数据管理部门对web或app端的收集基本上是源头推送的文件,对收集没有实际主导地位。内容丰富度大大降低。同时,webjs脚本和appsdk实际上都有一定的技术门槛。由于企业app源受合作伙伴能力的限制,收集能力往往不足,数据质量参差不齐。互联网源日志保留,什么是源本身的要求,什么是大数据管理的要求,需要清楚地思考,如果大数据管理部门想要获得更好的数据,是否考虑向前一步,毕竟,OLAP和OLTP对数据的看法不同,人们不需要为你留下你需要的数据。企业大数据管理部门能否适应互联网的新形式,打破线路分割,在传统数据库、文本、新闻收集的基础上,增加在线主动收集工具,是一个巨大的挑战。企业大数据管理部门能否适应互联网的新形式,打破线路分割,在传统数据库、文本、新闻等收集的基础上,增加在线主动收集工具,是一个巨大的挑战。目前,一些企业提供的企业级大数据收集工具缺乏这条腿。在未来,企业将上网,这种PaaS能力确实需要具备。2、数据同步阿里巴巴实现了oracle归档日志等增量采集,应该比较成熟。他的企业也采用了类似的OGG技术。虽然可行,但成本很高,新股合并成本很高。DSG希望崛起。目前,分库和分中心的表越来越多,数据同步的配置也越来越复杂。阿里巴巴的tddl分布式数据库引擎可以通过建立中间逻辑来整合统一分库和分表的访问,这确实值得学习。许多企业提取的数据源种类繁多,管理复杂。阿里巴巴建立了IDB来实现数据库的统一管理。基于这个元数据能力,阿里巴巴可以利用oneclick实现数据采集的健康配置和批量同步,可以看到管理的深度和厚度。阿里巴巴还对数据漂移提出了解决方案。事实上,每个企业都存在大量的数据漂移问题,如运营商计费单的记录更新时间、日志时间、业务时间和提取时间往往不一致,这将导致业务的逻辑问题。您可能在上个月底12点之前打电话,但业务记录将在本月的账单中。二、数据计算1、Maxcompute离线计算引擎阿里的Maxcompute离线计算引擎弥补了hadoop的许多缺陷。它提供统一授权、资源管理、数据控制和权限分配等综合管理方案,并提供易于使用的客户端支持网络、SDK、CLT、IDE等四种访问模式,集群数量可达数万台,加强安全控制能力,这些都是目前许多商业hadoop版本难以实现的。其计算核心是飞天内核,包括Pangu(盘古分布式文件系统)、Fuxi(伏羲资源调度系统)、Shennong(神农监控模块)等。其计算核心是飞天内核,包括Pangu(盘古分布式文件系统)、Fuxi(伏羲资源调度系统)、Shennong(神农监控模块)等。、作者的企业在统一开发平台方面也有这样的平台,但与阿里巴巴的平台仍有差距。事实上,它是一个功能更完整、系统化程度更好的工具集。(1)云(D2)D2是集成任务开发、调试发布、生产任务调度、大数据运维、数据权限申请管理功能于一体的一站式数据开发平台,能够承担数据分析工作台的功能。这实际上与作者的DACP非常相似,但由于DACP可以连接各种源系统,底层逻辑实际上更复杂,实施更困难,D2基本上只要与Maxcompute连接,这实际上是独立研发的好处,功能可以更强大,更好的体验,但相对封闭。(2)SQLSCANSQLSCAN将总结并形成规则,通过系统和R&D流程保证,提前解决故障隐患,避免用户在任务开发中遇到的各种问题,如SQL质量差、性能低、不遵守规范等。这一功能对于将平台推向前线至关重要,我们的DACP在推广过程中,遇到了很多SQL优化问题,但无论是通过培训还是其他方式,实际上远不如系统固化规则,阿里实践很好,开发平台必须记住不可能每个人都是代码专家,系统解决问题,这是平台规模的核心要素。至于DACP功能太大的问题,作者也明显感受到了阿里巴巴将开发平台分成多个产品的一些想法,这有利于小步快跑的原则,为每个模块取不同的名称,也有利于专项资源的投资。(3)DQCDQC(数据质量中心)主要*数据质量,通过配置数据质量验证规则,在数据处理任务过程中自动监控数据质量。它主要有两个功能:数据监控和数据清洗。数据监控主要是设置规则和报警。有强规则和弱规则。强规则可以阻止任务的执行。数据清洗的方式与我们大致相似。在引入过程中不清洗。入库后,根据配置规则进行清洗。(4)在另一边,通用和重复的操作主要沉淀在测试平台上,以避免人肉,提高测试效率。虽然作者所在企业的大数据自动化测试也有一些,但其功能不够强大。另一边的功能包括数据比较(支持不同集群和异构数据库的表进行数据比较,如数据量、字段统计值SUM、AVG等),从阿里巴巴的统一开发平台可以看到数据分布,它不仅提供了一套从任务开发到运行维护的完整工具,而且特别注重系统的完整性和规则的沉淀。这种平台工具实际上很难由第三方公司提供。除了缺乏自身的研发实力外,传统企业往往由于业务需求的压力而在IT等基础平台层面缺乏研发投资,盲目依靠资源和人力投资来解决一些无法解决的问题,同时,将报告的数量与产品开发人员混合在一起,导致厌倦了应对需求,这是值得深思的。3、实时技术阿里巴巴基于TimeTunnel收集实时数据,其原理与Kafka等新闻中间件相似,采用StreamCompute进行流式处理,与Storm、Stream相似,对于实时统计问题,其提出的一些方案值得借鉴。在商业智能统计实时任务中,资源消耗非常高,即重指标,实时任务追求性能,计算逻辑一般在内存中完成,在重计算中,必须保留重细节数据,当重细节数据达到数亿时,内存不小,怎么办?精确的重量可以通过数据倾斜处理,节点内存压力到多个节点,在模糊的前提下,可以使用相关的重量算法,内存使用到千分之一甚至万分之一,布隆过滤器是一种,简单地不保存细节数据,只保留细节数据对应的哈希值标记位置,当然,哈希值碰撞。在运行过程中,实时任务会计算许多维度和指标,如何保存这些数据?实时任务计算运行中的许多维度和指标。如何存储这些数据?由于大多数实时任务都是多线程处理的,这意味着数据存储必须能够更好地支持多并发读写,并且延迟需要在毫秒内满足实时性能要求。一般采用Hbase、Tair等列数据存储系统。当然,HBASE等系统的缺点也很明显,必须使用rowkey,而rowkey的规则限制了阅读和写作的方式,显然不像相关数据库那么方便,但一般适用于海量数据的实时计算和读写,为HBASE阿里巴巴提供了一些表名和rowkey设计的实践经验。例如,rowkey可以采用MD5 主维度 维度标识 字维度 时间维度 子维度2,比如卖家IDMD5的前四名 卖家ID app 一级类目 ddd 二级类ID,以MD5的前四名为rowkey的第一部分,可以分散数据,平衡服务器的整体负载,避免热点问题。作者一直认为实时数据不需要建模,似乎太天真,可能主要是实时应用在许多企业场景,但阿里显然不同,实时统计能力非常重要,无论是双11屏幕还是阿里业务人员,实时统计指标作为卖点,实时模型和离线模型建模理念一致,如阿里流动模型分为五层,ODS层、DWD层、DWS层、ADS层和DIM层将在作者的后续文章中介绍每层的含义,这里不再描述。
推荐阅读
- 信息化系统包括哪些内容
信息化都包括哪些工作?所谓信息化,就是把企业的业务、流程、渠道等重要资源通过计算机技术、网络技术、软件技术、互联网技术、智能感知技术等进行整合、重组和优化,以达到提高管理效率、降低管理成本、增强企业竞争力。 信息化工作的初级阶段就是引入计…查看详情
- 2019万商云集第八届“因你生长”BO·SS会暨15周年庆盛大开幕
秋风送爽,金桂飘香。2019年9月29日,2019万商云集第八届“因你生长”BO·SS会暨15周年庆在成都雅居乐豪生大酒店盛大启幕。万商云集英雄会,是一场聚会,更是一场狂欢,这是让每一个万商人心驰神往的超级盛会。经过四个月的浴血奋战,八大城…查看详情
- jpg是什么意思
jpg是什么网络用语意思?是“紧迫感”的意思 含义: 形容事物的紧急迫切的状态。紧迫感常出现于做一件事情需要所需要的时间比要求完成的时间短得多,这个时候就会有紧迫感。 简单的讲就是:事情非常紧急,且没有缓冲的余地,但时间很少的状态。紧…查看详情
- 家电知识产权现状 | 为争夺消费者,企业如何应对专利纠纷?
各行各业都在社会发展、互联网发展、消费升级中向前进,并随各阶段进行了价格战、营销战,到如今又开启了专利战。家电行业也是如此,为立足于市场之中,为了争夺消费者,家电知识产权中产品专利是第一利器。 图片来源于网络 家电知识产权中专利纠纷成为常态…查看详情
- 小说阅读软件哪个好免费 哪个小说app最好用
小说是我们每个人都比较喜欢看的东西,里面的文字可以在脑海中形成一种画面,这种画面就是小说的文字场景所展现出来的东西,在休闲或者是无聊的时候可以非常有效的打发时间,那今天我们就来盘点一下小说阅读软件都有哪些。 1、完本小说阅…查看详情
- 2022年小说网站排名
现在很多的小伙伴平时都喜欢看小说来打发时间,而且现在的小说类别那是丰富多彩,而且能看小说的网站也是有很多的,下面万商云集*给大家来介绍一下2022年小说网站排名这方面的内容,看一下有没有你喜欢的网站。 第一家:起点中文网 当下最大的…查看详情
- 网站如何更新 网站更新的几种付费
网站更新是非常重要的一项工作,它不仅能够提高网站的用户体验,还能让网站始终保持活力和竞争力。网站更新的方式有很多种,本文将详细介绍网站更新的几种主要方式。 一、内容更新 内容更新是网站更新的最基本方式,它包括文字、图片、视频等各种形…查看详情
- 2022年商标注册地址变更流程
很多人会在商标注册的过程中变更自己的商标注册地址,但是很多人都不知道商标注册地址的变更流程是什么,下面万商云集*给大家来介绍一下2022年商标注册地址的变更流程。 2022年商标注册地址变更流程 一、准备申请书件 1、应提交的申请…查看详情
- 网站域名怎么申请?注意几点事项可让域名更优质
网站建设之前我们需要考虑选择一个简单易记的网站域名,这对于企业的网络营销推广有着重要作用。那么对于企业来说,如何选择一个简单易记的网站域名很重要,网站域名怎么申请同样重要。下面就为大家介绍“网站域名怎么申请”相关内容。图片来源于网络 网站域…查看详情
- 2022年网络推广哪个平台好
营销推广是企业生存的一部分,还是很重要的构成部分,下面万商云集*给大家来介绍一下2022年网络推广哪个平台好这一块的内容。 seo平台 当一个企业想做网络营销的时候,一定要接触到网络推广,尤其是新产品和新网站所以这么多企业选择做网络推广…查看详情
- 拍账王:砥砺四载不忘初心,引领互联网财税行业创新升级!
4年的时间,对您来说意味着什么?对拍账王而言,是无数个令人动人的瞬间。回忆拍账王的一路如何走来,是陪伴着每一家企业的成长,见证每一个企业不断的发展、壮大。 4年对拍账王还意味着什么?是1461个日夜,是成长是发展是不断完善和不曾停止的努力…查看详情
- 什么是动态域名解析
动态域名解析,英文缩写为DDNS(DynamicDomainName System),是一种自动化域名系统,可以将域名与动态IP地址关联起来。当有人使用动态IP地址连接到互联网时,它的IP地址可能会在不同时间发生变化,如果使用静态IP…查看详情
- 修照片软件哪个好用?这几款修照片软件值得推荐
拍摄完照片之后就需要进行处理,只有选择一款比较好的修照片软件才能够让整个照片处理的更加精致完美,而且也能够带来想要的效果,所以说选择一款修照片软件很关键,那么修照片软件哪个好用?下面就来详细的了解一下。 1、美图秀秀 美图秀…查看详情
- originos系统是什么?
originos3.0系统更新到第几批了?结论:目前还没有第一批用户获得原子操作系统3.0系统更新。 原因:根据官方公告和相关报道,目前原子操作系统3.0仍处于内部测试和优化阶段,并未正式向用户推出更新。 虽然已经发布了原子操作系统3.…查看详情
- 网络购物平台有哪些 网络购物平台排行榜
因为现在是互联网的时代,人们是离不了网络的,所以对于平时没有时间逛街的人来说,他们都会在网上购买自己所需要的东西,但是,需要提前知道网络购物平台排行榜都有哪些。 1、淘宝 身为我国最先出现的网购平台,用户数量众多。其产品种类…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
邮箱:zjb@iwanshang.com
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的AI增效平台

400-0033-166
8:30-18:00















































注册有好礼



