数据挖掘如何能跟得上变化?
2020-12-30 11:00:41 阅读(202) 评论(0)
今天,我将继续讨论阿里巴巴的书籍,包括数据服务平台、数据挖掘平台、数据建模、数据管理和数据应用。我希望你能得到启发。1、数据服务平台数据服务平台可以称为数据开放平台,数据部门生产大量数据,如何方便有效地开放,是我们一直需要解决的问题,在没有数据服务的时代,阿里数据开放简单,粗糙,一般直接导出数据,我认为,现在大多数公司应该开放,虽然PaaS喊了这么多年,但有多少真正的成就?即使像阿里巴巴一样,在数据开放的方向上探索和实践已经7年了。任何关于数据开放的做法都将失败,任何数据开放的改进都将随着对业务的深入了解而成长。阿里的数据开放经历了四个阶段,DWSOA、OpenAPI、SmartDQ和OneService:DWSOA:这是数据服务的第一阶段,即通过SOA服务暴露业务方对数据的需求,由需求驱动,开发一个或多个接口,编写接口文档,并向业务方打开呼叫。这种结构简单,但接口粒度粗,灵活性低,可扩展性差,再利用率低。随着业务需求的增加,接口数量显著增加,维护成本高。同时,开发效率不高。根据阿里巴巴的说法,一个接口至少需要开发一天才能上线。事实上,这远不止于此。如果你想改变1-2个字段,你也应该采取一套完整的流程,这应该是大多数公司的常态。OpenAPI:DWSOA的明显问题是烟囱开发,难以沉淀常见数据,OpenAPI根据统计粒度聚合数据,相同维度的数据,形成逻辑表,使用相同的接口描述,对于某种查询,只需调用一个接口,这种形式可以有效地收敛接口,作者公司的许多外部服务也是这种形式,如通过包装数十个位置服务API,统一外部提供灵活的查询能力,但事实上,复杂的逻辑界面仍然需要一个讨论,即第一种方式。SmartDQ:数据维度是不可控的。随着数据的深入使用,OpenAPI显然会急剧增加,维护映射的压力会很大,所以阿里巴巴会抽象一层,使用DSL(DomainSpecificLanguage,现场专用语言)来描述SQL的取数需求,支持标准,到目前为止,所有简单的查询服务都减少到另一个接口,这降低了数据服务的维护成本。传统的问题检查方式需要检查源代码,确认逻辑,SmartDQ只需要检查SQL的工作量,并可以通过写SQL向业务提供服务,SmartDQ包装跨域数据源和分布式查询功能,通过逻辑表屏蔽底部物理表细节,无论是HBASE还是MySQL,是单表还是库表,大大简化了操作的复杂性。事实上,中国移动业务分析规范早就提出了即席查询、伪代码等包装方法,作者企业也通过自助实践,阿里在着陆方面做得更好,是大师,传统企业大数据产品往往只能在单点上取得突破,不能使用团队始终坚持产品,如企业自助平台在设计中不需要支持跨异构数据库的大数据时代,由于原来的自助取数队和现在的DACP队完全是两组人,很难实现现有能力的传承。阿里的想法并不是很先进,但它不仅着陆了,而且不断演变,这可能是企业独立研发的价值,其产品总是流动着相同的血液。OneService:SQL显然无法解决复杂的业务逻辑。事实上,SmartDQ只能满足简单的查询服务需求。就像我们的自助取数只能满足50-60%的临时取数一样,企业遇到的场景如下:个性化垂直业务场景、实时数据推送服务和定时任务服务,OneService主要提供多种服务类型来满足客户需求,OneService-SmartDQ、OneService-Lego、OneService-iPush、OneService-uTiming。Lego被设计成一个服务容器,面向中高度定制的数据查询需求,支持插件机制。我理解它是为了提供定制的环境和暴露的接口,你可以做任何你想做的事情。Lego被设计成一个服务容器,面向中高度定制的数据查询需求,支持插件机制。作者理解,它是为了提供定制的环境和暴露的接口,你可以做任何你想做的事情。iPush应用程序产品是TT、通过定制过滤规则,MetaQ等不同的消息源向Web发送、中间件平台,无线等终端推送消息。Utiming是一个非常个性化的应用,基于云中的任务调度应用,提供批量数据处理服务,支持用户识别、用户肖像、人群圈选择三种服务的离线计算、服务数据预处理和仓储。2、阿里在阿里云Maxconpute中构建了一套数据挖掘架构、在GPU等计算集群上,阿里巴巴收集了大量高质量的分布式算法,包括数据处理、特征工程、机器学习算法、文本算法等,可以有效地完成海量、1亿维度数据的复杂计算,提供一套易于操作的可视化编辑页面,大大降低了数据挖掘的门槛,提高了建模效率。它选择的计算框架是MPI,其核心算法是基于阿里云的MaxcomputeMPI实现的。该算法平台还集成了大多数行业主流的机器学习算法。让我有点惊讶的是,阿里巴巴还建立了一个数据挖掘平台。作者以前也想这样做,但后来发现与数据仓库的集成模型(如宽表)有很多相似之处,所以他没有坚持下去。阿里将数据中心分为三层:特征层(FDM)、中层和应用层(ADM),中间层包括个体中间层(IDM)和中间层的关系(RDM),如下图所示:FDM层:用于存储模型训练中常用的特征指标,类似于集成模型的宽表。我很好奇阿里数据仓库的DWS只是一个收集层或一个宽表,否则它与FDM非常相似。IDM层:个体挖掘指标的中间层,面向个体挖掘场景,用于存储通用性强的结果数据。事实上,在我看来,它是通用标签库的源表。ADM是个性标签的源表。我不知道我是否理解正确。数据挖掘这一章很短,缺乏一些细节,想与部门定位有关,数据挖掘一般应用导向,核心可能掌握在各业务部门挖掘者手中,作者对数据挖掘平台的实际价值有疑问,毕竟,挖掘不断变化,数据仓库建模容易理解,但数据挖掘平台如何跟上变化?3、这本书占据了数据模型数据建模的三分之一,显示了它的重要性。首先,让我们谈谈阿里巴巴数据模型的历史。事实上,它仍然与作者有很多关系,因为在2005年至2007年,为公司服务的合作伙伴大量BI人员跳槽到阿里巴巴。据说他们已经建立了阿里巴巴一代的数据仓库系统,其中许多人都与作者合作过。现在他们仍然有点情绪化。(1) 历史发展的第一阶段:在完全应用驱动的时代,数据完全满足报告需求,以与源结构相同的方式将数据同步到Oracle,类似于作者刚刚进入公司的情况。第二阶段:随着阿里业务的快速发展,数据量的快速增长,性能已成为一个大问题,需要通过一些模型技术改变烟囱开发模型,消除数据冗余,提高数据一致性,传统行业数据仓库工程师开始尝试更受欢迎的ER模型 将维度模型模式应用到阿里巴巴集团,构建四层模型架构,即ODL(数据操作层) BDL(基础数据层) IDL(接口数据层) ADL(应用数据层)。ODL与源系统一致。BDL希望引入ER模型,加强数据集成,构建一致的基础数据模型。IDL基于维度模型方法构建市场层。ADL完成了个性化的应用程序和基于显示需求的数据组装,这对应于作者所在企业的当前ODS,DWD,DWA/DWI和ST层,但阿里在构建ER时遇到了更大的挑战,主要是业务的快速发展,人员变化迅速,业务知识基础不全面,导致ER模型输出困难。阿里巴巴得出结论:在不成熟、快速变化的业务层面,构建ER模型的风险很大,不适合构建ER模型。例如,运营商的业务相对稳定,世界上也有一些最佳实践,可以从概念-领域-逻辑-物理的整体控制来处理,但面对变化,确实有其限制。第三阶段:阿里巴巴业务和数据的快速发展迎来了以hadoop为代表的部署式存储计算的快速发展。与此同时,阿里巴巴自主开发的分布式计算平台Maxcompute也在进行中。因此,它开始构建自己的第三代模型架构。它选择了以Kimball维度建模为核心概念的模型方法论,并在一定程度上进行了升级和扩展,建立了阿里巴巴集团的公共层模型数据架构体系。阿里模型分为三层:操作数据层(ODS)、公共维度模型层(CDM)以及应用数据层(ADS),模型层包括详细数据层(DWD)和汇总数据层(DWS)。阿里模型分为三层:操作数据层(ODS)、公共维度模型层(CDM)以及应用数据层(ADS),模型层包括详细数据层(DWD)和汇总数据层(DWS)。ODS:将操作系统数据存储在数据仓库系统中,几乎没有处理。CDM:细分为DWD和DWS,分别是详细数据层和汇总数据层,以维度模型方法为理论基础,采用一些维度退化方法,将维度退化到事实表,减少事实表与维度表的关联,提高详细数据表的可用性,同时在汇总数据层,加强指标维度退化,采取更广泛的手段建立公共指标数据层,提高公共指标的可用性。ADS:根据CDM和ODS加工,存储数据产品的个性化统计指标数据。具体见以下模型架构图:每个行业都可以根据自己的实际情况来划分模型的分层。没有所谓的最佳实践。比如作者所在的企业,源维度一致性很好。DWD主要做标准化工作,屏蔽ODS变化引起的上层变化。维度建模的概念更多体现在DWA/DWI层面。(2) OneData的模型实施是阿里巴巴的模型设计理论。我认为它写得很好。读完这个过程后,你基本上会了解维度建模的每一步。强烈建议结合以下维度和事实表建模进行精读。主要步骤如下:数据研究:业务研究需要了解业务系统的业务,需求分析是收集分析师运营商对数据或报表的需求,实际上,报告需求是最现实的建模需求的基础。架构设计:分为数据域划分和构建总线矩阵。数据域划分是指业务流程或维度的抽象集合。业务流程可以概括为不可分割的行为事件,如订单、支付等。架构设计:分为数据域划分和构建总线矩阵。数据域划分是指业务流程或维度的抽象集合。业务流程可以概括为不可分割的行为事件,如订单、支付等。构建总线矩阵需要明确每个数据域下游的业务流程和维度,并定义每个数据域下的业务流程和维度。标准定义:标准定义主要定义指标系统,包括原子指标、修饰词、时间周期和衍生指标。阿里巴巴对指标的标准定义有一个单独的描述。你可以努力学习。很多时候,细节决定成败。模型设计:模型设计主要包括维度和属性的规范定义、维度表、详细事实表和总结事实表。最后,用图镇楼,这张图值回书价。本书介绍了维度设计和事实表设计,由于细节过多,作者不再展开,如果你是建模人员,必须好好看,也可以参考数据仓库工具箱维度建模权威指南,一般在建模过程中遇到很多问题有解决策略,未来可能遇到建模问题,本书也提到了很多,是建模人员宝贵的实际战斗参考材料。4、数据管理数据管理涉及很多事情,本书具体提到元数据、计算管理、存储和成本管理和数据质量,相对内容相对较薄,我选择两点:总是听说阿里丰富的氛围,所有数据永久保留,实际上是荒谬的,人们也节省生活,看下图:处理无尽的数据和应用,数据工程师很难确定哪些数据是最重要的,阿里巴巴提出了数据资产水平的解决方案,旨在解决消费场景中知道的问题。它将数据分为五个层次,从A1到A5,具有毁灭性、整体性、局部性、一般性和未知性。那么如何给每个资产贴上等级标签,就是借助强大的元数据能力,了解哪些表服务于哪些数据产品。基于血缘分析,可以说整个消费链路都贴上了某种资产的标签。如果阿里巴巴业务人员定位等级A2,所有相关链接的等级都是A2,从而启动相应的保障措施,类似于作者企业的大数据保障方法。确定表的保证等级,应用程序的重要性。5、阿里的数据应用主要介绍了外部数据产品平台的业务人员和服务于内部的数据产品平台。从本质上讲,商务顾问是为自己的渠道提供的增值服务。这是一个非常成功的决策支持产品,反映了一个产品如何从小成长为庞然大物的过程:内部数据产品的演变几乎是每个公司BI系统的开发和复制,但很明显,它已经长成了一棵大树,从临时计数阶段到自动报告阶段(如BIEE),然后到BI自主研发阶段(第三方无法满足自己),最后到数据产品平台(更系统化)。目前,包括PC和APP版本在内的阿里数据产品平台有四个层次,即数据监控、专题分析、应用分析和数据决策。目前,阿里巴巴的数据产品平台,包括PC和APP版本,有四个层次,即数据监控、专题分析、应用分析和数据决策。在这里,我基本上已经读完了。整本书都是关于经验的。它经常闪闪发光。建议多读几遍。这本书也引起了作者的一些思考,为什么他们能做到呢?传统企业大数据的差距在哪里?是机制流程问题吗?数据产品的传承?合作伙伴的问题?核心能力自控问题?业务对数据产品的驱动力问题?小步快跑落地问题?企业产品规划?遗憾的是,这本书更多的是关于技术和数据内容的深入阐述
推荐阅读
- 好用的卫浴品牌有哪些 卫浴品牌排行榜前十名
目前国内来讲,主要以广东佛山、福建南安、河北唐山、河南长葛、四川简阳等几大卫浴生产基地。就产品配套措施完整度而言,还是以广东佛山的品牌为优,毕竟中国陶瓷城就坐落于佛山嘛。下面万商云集小编就给大家来详细介绍一下好用的卫浴品牌有哪些 卫浴品…查看详情
- 哪家的CRM能够算是好用的CRM
随着我国经济水平的不断上升,各行各业竞争激烈。许多的企业为有效的进行客户管理,都实施引进CRM系统,可是在面对众多的CRM产品,却不知道如何选择一款好用的CRM。如果选择错了,反而会成为企业的负担,因此选择一款好用的CRM真的尤为重要。接下…查看详情
- 域名重定向是什么意思
域名重定向(Domain Redirect)指的是将一直域名的访问请求自动重定向到另一个指定的域名或网址上。在互联网上,域名重定向是一个很常见的操作,对于网站的维护和运营非常重要,在实际应用中,域名重定向具有以下几个方面的作用: 1…查看详情
- 为什么ERP系统实施难?应该怎样规避风险
中小企业在信息数字化的道路上徘徊不前,并不是看不到先进的技术和理念,其核心原因是ERP系统实施困难的问题没有得到良好的解决。目前通过实施ERP来提高企业自身的成本、速度、管理、质量、科技等方面的竞争优势,已成为中小企业的当务之急。谁能先一步…查看详情
- 建设网站的步骤,手把手教你搭建优质网站
很多的企业为了能够带来更好的推广,都特别注重网站的建设,几乎现在大大小小的企业都有属于自己的网站。建立网站之后也能够得到很好的推广,能够将自己的产品更好的推销出去,吸引更多的客户。但是在建立网站的时候,也应该要了解相关的建站步骤…查看详情
- 拼图软件哪个好用 十大拼图软件排名
现在很多人拍照都离不开拼图这个点,市面上其实有很多的拼图软件,下面万商云集小编就给大家来详细介绍一下拼图软件哪个好用 十大拼图软件排名这方面的内容,希望能帮助到大家。 1.美图秀秀 美图秀秀是一款很受欢迎的图片处理软件,使用者不仅可以…查看详情
- 豆瓣排名前50电影
优质答案(1) 1、人生:《美国往事》 2、痛苦:《现代启示录》 3、信念:《肖申克的救赎》 4、哲思《第七封印》 5、执着《阿甘正传》 6、才华《东方不败》 7、爱情《罗马假日》 优质答案(2) 《最初的梦想》 影…查看详情
- 十大财务软件分享,总有一款适合你
随着时代的变迁,如今的财务早已经不同于以往的“账房先生”,仅凭算盘和纸笔就能指导“天下”。现在的企业拥有庞大的数据需要分析处理,以及各项数据申报,而这些都是离不开财务软件的辅助。但是对于选购财务软件,我们不仅要擦亮双眼,还要了解相关财务软件…查看详情
- 公司网站建设需要多少钱?包含4个部分费用
随着我国经济的不断进步,创业环境有了很大的改善。很多创业人士在创投初期就会开始着手打造公司网站,这是一个公司对外树立形象的重要途径,甚至有人说公司网站平台的成功打造就是创业成功的一半。那么就一定会有人问了,公司网站建设到底需要多少钱呢。下面…查看详情
- 解压文件的软件哪个好?好用的解压文件软件推荐
当我们接收一些文件的时候,很有可能是属于压缩的文件,那么这个时候想要查看文件,就应该对文件进行压缩,需要用到比较好的软件,能够压缩文件的软件很多。那么解压文件的软件哪个好?接下来就给大家详细的介绍几款比较好的解压文件的软件,希望…查看详情
- 会员卡管理系统价格影响因素有哪些?
会员卡管理系统价格影响因素有哪些?会员卡管理系统价格影响因素还是比较多的,比如说软件的开发成本等等,大家应该都知道,在软件开始上线之前需要经过很多环节,包括了软件需求方面的调研工作以及功能流程的原型确定,再就是到后期的编码开发、软件反复测试…查看详情
- erp有哪些品牌,可供企业选择
在如今,企业已难仅依靠自己内部资源在市场竞争中获得优势,还需将供应商、制造商、客户等集中利用,产生高效生产和经营、收获低成本、高效率的竞争优势,所以erp系统纷纷被企业所使用。那么现今市场上erp有哪些品牌可供企业选择呢?不妨接着往下看。图…查看详情
- 外贸独立站的建站技巧有哪些?
外贸独立建站,可能很多人并没有听说过这个名词,其实简单来说就是建立一个属于自己能够掌控的平台,而且是属于电商平台将商品传上去之后需要自己去进行推广去营销。因此在进行外贸独立站的建设时,也应该有掌握一些相关的技巧,这样在推广营销的…查看详情
- matlab下载哪个版本好
MATLAB2018a怎么下载安装与激活?答:mathworksmatlabr2018a中文版,64位版本,附带了相应的序列号和许可文件,可以完美成功激活软件,其详细的安装教程可参考下文,希望对你有帮助 matlab2018a 教程: …查看详情
- 人气火爆的言情小说排行榜,哪本是你的最爱?
每个人所选择的小说不相同,对于看完小说的感受也不一样,那么,想要快速的选出一部好的小说去看,就要提前了解一下言情现代小说排行榜都有哪些,这样才可以选出一部好的小说去看。1《何以笙箫默》顾漫(著)一段年轻时候的爱情,牵扯出一辈子的纠缠不清。学…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00
















































注册有好礼



