问与答:关于网站数据分析的一些问题(3)
2020-12-17 11:16:58 阅读(149) 评论(0)
前一篇文章——网站数据分析中的一些问题(2)主要是BI相关问题,本文主要是数据仓库相关问题。因为最近在阅读一些数据仓库信息和书籍,想提出以前和当前的主要问题(博客数据仓库相关内容请参考网站数据仓库目录),同时也对数据仓库知识进行整理和理解,很长一段时间没有在博客上发送新文章,不能让自己太懒。之前看过Inmon和DW2的《构建数据仓库》.0.另一位数据仓库大师Kimball的《数据仓库生命周期工具箱》没有时间阅读。最近有时间看大部分,迫不及待想写点东西。事实上,数据仓库领域普遍认为,Inmon和Kimball的理论是相反的。两者在构建数据仓库方向上的差异一直在争论,没有人能说服任何人哪种方法更好。我不知道什么时候从Evernote的笔记中摘录了对两者观点的一般描述,非常简洁明了,一针见血:其实看了《数据仓库生命周期工具箱》,发现两者的观点没有那么大的本质区别。随着数据仓库的不断发展,两者在整体结构上逐渐趋同。基本上,建立统一的企业数据仓库的方向是一致的,而Inmon倾向于从底层数据集成开始,而Kimball倾向于从上层需求的角度开始,这可能与他们从事的项目和位置有关。有了以上高质量的总结,第一个问题——你更喜欢如何构建数据仓库(BOTTOM-UPorTOP-DOWN),优缺点是什么?——事实上,没有必要问,所以下面主要提到一些实际上可能经常遇到或需要想清楚的问题:Q1、数据仓库的技术解决方案是什么,这些解决方案的优势和瓶颈是什么?随着数据仓库的不断发展和成熟,“大数据”概念的普及,相关产品越来越多。最常见的技术解决方案包括hadoop和hive,oracle,mysqlinfobright,grenplumnosql,或多种组合使用。事实上,有两种类型:一种是以传统RDBMS为主导的数据库管理数据,oracle、mysql等都是基于传统的关系数据库,其优点是数据结构更加严格,关系数据库对数据的管理更加规范,数据处理过程中可能出现的非人为误差极小,而标准的SQL接口使得数据获取成本更低,数据的查询和获取更加灵活高效;但缺点也很明显。当数据量达到一定程度时,海量数据的处理和存储能力不足会出现明显的瓶颈。但是基于文本的分布式处理引擎,hadoop、greenplum和nosql都是基于文本数据的处理和存储。其优点是数据处理能力强,分布式架构支持平行计算,扩展能力强;缺点是上接口不方便,因此,Hadoop上层的hive和grenplum上层的postgresQL都是为了解决数据接口问题,数据查询和获取难以实时响应,灵活性不足。Q2、数据仓库是否应保存聚合数据,细节数据不应放入数据仓库?Q2、数据仓库是否应保存聚合数据,细节数据是否不应放入数据仓库?事实上,这个问题基本上已经达成了共识。如果是企业数据仓库的建设,那么细节数据的集成和存储是必不可少的,但实际上仍有许多直接从外部数据源计算和聚合后导入数据仓库的例子。如果数据仓库只是一个轻量级的应用程序,只存储聚合数据是可以理解的。毕竟,没有人规定数据仓库必须是什么样子。最终目标是满足对数据的支持和需求。但对于企业的长期发展,数据仓库存储细节数据有两个优势:一方面从技术层面,数据仓库存储细节数据可以释放前台数据库的查询压力,同时对文本数据和外部文档数据管理更加标准化,数据仓库保留历史和不可改变的特点可以使信息不丢失;另一方面是使用数据,数据仓库使数据更容易获取和使用,集成细节数据使大量的文本数据可以查询和相关性,而主题设计使数据显示和分析更有方向性和目的性,细节数据对支持数据分析和数据挖掘应用至关重要。因此,如果数据仓库想要不断产生更大的价值,细节数据的存储是必不可少的。因此,如果数据仓库想要不断产生更大的价值,细节数据的存储是必不可少的。Q3、您将数据仓库分为几层,每层的数据功能是什么?没有标准答案,数据仓库可以根据数据仓库中数据的复杂性和对数据使用的需求进行划分。我通常把数据仓库分为三层:底层的细节数据,管理策略是优化存储,一般存储导入的原始数据,由于数据量大,需要优化存储;中间层是多维模型,管理策略是优化结构和查询,主题多维模型设计,需要满足OLAP和数据查询的多样化需求,确保查询的便利性,关键在于维度表的设计和维度的选择和组合。事实表需要注意存储和索引的优化;上层是显示数据,管理策略是优化效率。一般来说,它将存储每天需要显示的汇总报告,或根据多维模型组装的视图,显示层的数据需要以最快的速度显示,通常用于BI平台的Dashboard和报告。Q4、数据仓库建设中最复杂的事情是什么,最容易缺失的是什么?Q4、数据仓库建设中最复杂的事情是什么,最容易丢失的部分是什么?我一直认为数据仓库的核心不是数据集成。当然,数据集成是数据仓库实现价值的前提。数据仓库的真实价值反映在数据的有效应用中,数据源于业务对业务的反应。数据仓库建设的核心在于数据仓库的架构和数据模型的设计。如何权衡数据存储与数据获取效率之间的矛盾是数据仓库管理的难点。任何数据仓库都会有这个困难,大数据增加了这个平衡的难度。数据集成和数据质量控制是数据仓库建设中最复杂的事情,尤其是数据清洗过程。我以前写过几篇关于数据质量控制的文章,但实际上,这个过程要复杂得多。此外,为了上层数据输出的准确性和有效性,这项工作必须尽可能详细地完成。构建数据仓库中最容易缺少的是元数据的管理。很少有数据仓库团队拥有完整的元数据。当然,构建数据仓库的工程师本身就是活的元数据,但元数据对于使用数据的人和数据仓库本身的团队来说是必不可少的。一方面,元数据为数据需求方提供了完整的数据仓库使用文档,帮助他们独立快速获取数据,另一方面,数据仓库团队成员可以从日常数据解释中解脱出来,无论是后期迭代更新维护还是培训新员工,元数据都可以使数据仓库的应用和维护更加高效。
推荐阅读
- 企业如何运用零售crm系统管理客户
伴随着我国零售市场的发展,百货公司和连锁超市规模在全国迅速扩张,行业竞争现象日趋激烈。利用零售crm系统,帮助零售业更好地利用销售追踪手段.更精确的销售预测和实时可见的销售手段。零售业的crm系统帮助中小型企业快速高效地启动和运作企业。有了…查看详情
- 小说阅读器该选择哪个好?
除了一些游戏、音乐、聊天app之外,小说app几乎成为了人们手机上的必备软件,不论是在车上、床上、家里,随时随地拿出手机打开小说app即可看最新最热门的小说。那么小说阅读器选哪个好呢?一、掌阅iReader掌阅iReader,无广告全免费的…查看详情
- 解压缩软件哪个好 电脑常用解压软件
现在工作中解压缩文件都是很常见的事情,下面万商云集小编给大家介绍下比较好用的解压缩软件,希望能帮助到大家。 CisdemUnarchiverfor Mac是一款支持RAR,Zip,7-zip,ISO,Udf,Wim和TAR等文件格式的解…查看详情
- 知名度比较高的几部仙侠小说,不知各位看官更青睐谁
要说世界上有哪一类小说充满神秘感,让读者感到无比好奇,就只有仙侠和玄幻了,在人们眼中,受认可度最高的是仙侠小说,占了一个侠字,可能就给人感觉小说格局十分伟大,确实如此,多年来,小编搜罗了知名度比较高的几篇仙侠小说,整理成了仙侠小说排行榜,看…查看详情
- php4与php5的区别
php的几个版本的区别?PHP5.2以前:autoload,PDO和MySQLi,类型约束PHP5.2:JSON支持PHP5.3:弃用的功能,匿名函数,新增魔术方法,命名空间,后期静态绑定,Heredoc和Nowdoc,co1t,三元运算符…查看详情
- 如何创建自己的个人网站?
因为现在各个行业都已经进入到了网络中,如果想要得到发展没有搭载网络的平台,可能就会失去机遇,也难以将自己的产品得到推广,所以建立自己的网站也是非常重要的,更是以哥值得投资的事情,那么如何建立自己的个人网站呢?下面就来看看吧。 …查看详情
- 企业在线考试系统推荐,提升企业的综合方面的能力
现在很多机构或者学校都需要运用到考试系统,可以系统全面地分析考试成绩,这样就可以根据短板采取一定的措施,但是有很多的考试系统,以下是我给大家推荐的考试系统,希望对大家有所帮助。1、考考考考以轻便性、功能强大、没有答题人数限制、服务周到著称。…查看详情
- hdaudio是什么接口
hdaudio接口在主板faudio处么?是,HDAudio是机箱上面的声音插孔,需要接在AAFP的接针上,此接针一般位于左下的位置。 音频接线一般是7针和9针,品牌机7针的多,组装机一般都是9针HDAudio意思是高保真音频的意思,HD…查看详情
- 手机浏览器排名 中国十大浏览器排名前五
大数据搜索引擎技术不断向前发展,各种软件开发公司对浏览器的应用app也做出了相应的优化于调整。下面是我给各位小伙伴整理的5款功能齐全的浏览器排名,有需要的朋友可以看一下哦。 1.多多浏览器 它是风云公司旗下自主研发推出的一…查看详情
- 互联网产品知识产权有哪些?
最近几年互联网知识产权也逐渐被大家越来越重视了,很多的互联网产品也逐渐去申请了相关的知识产权保护,下面万商云集小编给大家来详细介绍一下互联网产品知识产权有哪些以及目前这一块的现状等等,希望下面的内容能帮助到大家。 互联网产品知识产权包…查看详情
- 常识科普!北京软件版权登记究竟在登记什么?
根据相关法规,北京软件版权登记与否完全取决于自愿。2002年开始实施的《计算机软件保护条例》第七条规定:“软件可以向国务院著作权行政管理部门认定的软件登记机构办理登记。软件登记机构发放的登记证明文件是登记事项的初步证明。”该条规定说的是“可…查看详情
- 闲置物品二手交易平台有哪些
有哪些比较好的二手物品交易网站?1、闲鱼。 闲鱼是阿里巴巴旗下闲置交易平台,也就是二手交易平台。支付宝担保的个人交易平台,更诚信,更安全。 2、赶集网。 是最新推出的个人闲置物品交易平台。 3、转转。 是58推出的用于二手物品交易…查看详情
- 网站设计十大常识性错误,你触犯了吗?
想要打造一个完美的网站,并不单纯只是按照相应的规则,其中也有一些设计的技巧,而不只是天马行空,在设计网站的时候,更要杜绝毫无顾忌,需要了解这些常识性的错误,才能够往优秀网站的道路上更进一步,那么网站设计十大常识性错误,你触犯了吗…查看详情
- 盘点2021最热会员卡管理系统排名
随着经济的不断发展,公司发展的体制也在不断变化,公司服务在不断优化,推出了会员卡等系列的为客户服务的产品,会员卡作为会员的凭证出现,对公司的发展有着重要的作用,但是应该来怎样管理会员卡的相关信息呢,接下来就盘点一下2021最热会员卡管理系统…查看详情
- 4个版权登记存在的问题及完善建议
随着软件著作权登记量的不断增长,现行依据《保护条例》和《登记办法》中的规定的版权登记制度,已无法完全适用于目前软件登记工作。为更好地开展便捷高效地登记服务,应尽快解决计算机软件版权登记存在的问题。 图片来源于网络 计算机软件版权登记存在的问…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






