问与答:关于网站数据分析的一些问题(3)
2020-12-17 11:16:58 阅读(160) 评论(0)
前一篇文章——网站数据分析中的一些问题(2)主要是BI相关问题,本文主要是数据仓库相关问题。因为最近在阅读一些数据仓库信息和书籍,想提出以前和当前的主要问题(博客数据仓库相关内容请参考网站数据仓库目录),同时也对数据仓库知识进行整理和理解,很长一段时间没有在博客上发送新文章,不能让自己太懒。之前看过Inmon和DW2的《构建数据仓库》.0.另一位数据仓库大师Kimball的《数据仓库生命周期工具箱》没有时间阅读。最近有时间看大部分,迫不及待想写点东西。事实上,数据仓库领域普遍认为,Inmon和Kimball的理论是相反的。两者在构建数据仓库方向上的差异一直在争论,没有人能说服任何人哪种方法更好。我不知道什么时候从Evernote的笔记中摘录了对两者观点的一般描述,非常简洁明了,一针见血:其实看了《数据仓库生命周期工具箱》,发现两者的观点没有那么大的本质区别。随着数据仓库的不断发展,两者在整体结构上逐渐趋同。基本上,建立统一的企业数据仓库的方向是一致的,而Inmon倾向于从底层数据集成开始,而Kimball倾向于从上层需求的角度开始,这可能与他们从事的项目和位置有关。有了以上高质量的总结,第一个问题——你更喜欢如何构建数据仓库(BOTTOM-UPorTOP-DOWN),优缺点是什么?——事实上,没有必要问,所以下面主要提到一些实际上可能经常遇到或需要想清楚的问题:Q1、数据仓库的技术解决方案是什么,这些解决方案的优势和瓶颈是什么?随着数据仓库的不断发展和成熟,“大数据”概念的普及,相关产品越来越多。最常见的技术解决方案包括hadoop和hive,oracle,mysqlinfobright,grenplumnosql,或多种组合使用。事实上,有两种类型:一种是以传统RDBMS为主导的数据库管理数据,oracle、mysql等都是基于传统的关系数据库,其优点是数据结构更加严格,关系数据库对数据的管理更加规范,数据处理过程中可能出现的非人为误差极小,而标准的SQL接口使得数据获取成本更低,数据的查询和获取更加灵活高效;但缺点也很明显。当数据量达到一定程度时,海量数据的处理和存储能力不足会出现明显的瓶颈。但是基于文本的分布式处理引擎,hadoop、greenplum和nosql都是基于文本数据的处理和存储。其优点是数据处理能力强,分布式架构支持平行计算,扩展能力强;缺点是上接口不方便,因此,Hadoop上层的hive和grenplum上层的postgresQL都是为了解决数据接口问题,数据查询和获取难以实时响应,灵活性不足。Q2、数据仓库是否应保存聚合数据,细节数据不应放入数据仓库?Q2、数据仓库是否应保存聚合数据,细节数据是否不应放入数据仓库?事实上,这个问题基本上已经达成了共识。如果是企业数据仓库的建设,那么细节数据的集成和存储是必不可少的,但实际上仍有许多直接从外部数据源计算和聚合后导入数据仓库的例子。如果数据仓库只是一个轻量级的应用程序,只存储聚合数据是可以理解的。毕竟,没有人规定数据仓库必须是什么样子。最终目标是满足对数据的支持和需求。但对于企业的长期发展,数据仓库存储细节数据有两个优势:一方面从技术层面,数据仓库存储细节数据可以释放前台数据库的查询压力,同时对文本数据和外部文档数据管理更加标准化,数据仓库保留历史和不可改变的特点可以使信息不丢失;另一方面是使用数据,数据仓库使数据更容易获取和使用,集成细节数据使大量的文本数据可以查询和相关性,而主题设计使数据显示和分析更有方向性和目的性,细节数据对支持数据分析和数据挖掘应用至关重要。因此,如果数据仓库想要不断产生更大的价值,细节数据的存储是必不可少的。因此,如果数据仓库想要不断产生更大的价值,细节数据的存储是必不可少的。Q3、您将数据仓库分为几层,每层的数据功能是什么?没有标准答案,数据仓库可以根据数据仓库中数据的复杂性和对数据使用的需求进行划分。我通常把数据仓库分为三层:底层的细节数据,管理策略是优化存储,一般存储导入的原始数据,由于数据量大,需要优化存储;中间层是多维模型,管理策略是优化结构和查询,主题多维模型设计,需要满足OLAP和数据查询的多样化需求,确保查询的便利性,关键在于维度表的设计和维度的选择和组合。事实表需要注意存储和索引的优化;上层是显示数据,管理策略是优化效率。一般来说,它将存储每天需要显示的汇总报告,或根据多维模型组装的视图,显示层的数据需要以最快的速度显示,通常用于BI平台的Dashboard和报告。Q4、数据仓库建设中最复杂的事情是什么,最容易缺失的是什么?Q4、数据仓库建设中最复杂的事情是什么,最容易丢失的部分是什么?我一直认为数据仓库的核心不是数据集成。当然,数据集成是数据仓库实现价值的前提。数据仓库的真实价值反映在数据的有效应用中,数据源于业务对业务的反应。数据仓库建设的核心在于数据仓库的架构和数据模型的设计。如何权衡数据存储与数据获取效率之间的矛盾是数据仓库管理的难点。任何数据仓库都会有这个困难,大数据增加了这个平衡的难度。数据集成和数据质量控制是数据仓库建设中最复杂的事情,尤其是数据清洗过程。我以前写过几篇关于数据质量控制的文章,但实际上,这个过程要复杂得多。此外,为了上层数据输出的准确性和有效性,这项工作必须尽可能详细地完成。构建数据仓库中最容易缺少的是元数据的管理。很少有数据仓库团队拥有完整的元数据。当然,构建数据仓库的工程师本身就是活的元数据,但元数据对于使用数据的人和数据仓库本身的团队来说是必不可少的。一方面,元数据为数据需求方提供了完整的数据仓库使用文档,帮助他们独立快速获取数据,另一方面,数据仓库团队成员可以从日常数据解释中解脱出来,无论是后期迭代更新维护还是培训新员工,元数据都可以使数据仓库的应用和维护更加高效。
推荐阅读
- sql是什么意思网络语
sql是办公软件吗?sql并不是办公软件,而是一种数据库的语言,叫结构化查询语言。结构化查询语言(StructuredQueryLanguage)简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更…查看详情
- 图章制作软件盘点,这几款推荐给大家
图章制作软件,顾名思义自然是用来制作图章的一种软件了,只要选对合适的图章制作软件,想要制作各种图章的话,就变得更加简单了,毕竟在日常的工作和生活中,难免会有很多需要用到图章的地方,那么下面就为大家推荐几款图章制作软件,希望能够带…查看详情
- 知客CRM真的对销售公司有用吗?
知客CRM系统为什么被各个销售公司所选择?它真的有用吗?随着社会竞争日益紧张,现在大多数CRM供应商都侧重于满足“固定模式”销售团队需求,然后就将其抛给软件购买者,让他们在销售过程中适应软件。但是这种行为其实对销售公司的发展是不好的。因此选…查看详情
- 如何制作一个小程序?
如何做小程序? 如果想要开发小程序,首先需要准备以下几个工具: 1、微信开发者工具:利用这个工具可以实现自主的小程序开发; 2、VisualStudioCode:VisualStudio Code是一个轻量级、可扩展的文本编辑器…查看详情
- 不管是手机还是计算机都必备的安全软件
这对于一些电子东西来说,最重要的就是安全问题了,特别是手机和计算机,一旦手机和计算机里面入侵病毒的话,很有可能就会损坏它的本质,导致出现卡顿或者是黑屏的情况,那么很有可能还会丢失自己的重要文件,所以要看一下安全软件排行都有什么?…查看详情
- 如何清理浏览器缓存 浏览器缓存清理方法
经常使用电脑的人都知道,在电脑上安全不同的浏览器,当使用这些浏览器浏览网页、看视频等,用了一段时间后感觉电脑反应速度越来越慢。这是因为使用浏览器浏览网页会存在一些缓存,但是很多人不知道如何清理浏览器缓存,下面万商云集*给大家来详细介绍一…查看详情
- 流程图制作软件有哪些?好用的流程图制作软件介绍
流程图软件其实是在制作的过程当中必不可缺的一款工具。应用也是非常广泛的常用的流行图类型,有业务流程图,有数据流程图等不同的软件制作出来的效果也是不一样的。那么流程图制作软件有哪些?下面就来给大家详细的介绍几款比较好用的流程图制作…查看详情
- 小说阅读器哪个好?好用的小说阅读器下载
很多人都特别喜欢阅读小说,其实现在有很多的阅读器是需要收费的,找到一款比较好的小说阅读器,其实非常关键,好的小说阅读器里面的资源很多,而且能够找到很多不同的小说类型。那么小说阅读器哪个好?接下来就给大家详细的介绍一下比较好用的小…查看详情
- 在10年保护期内,商标可能因为以下问题被宣布“注册商标无效”
可注册商标属于有限资源,且商标注册的风险随着商标注册量的上升越来越高,为了缓解商标资源压力,商标监管和查处力度同步提高,近年来商标注册无效的案例也越来越多,在10年保护期内,商标可能因为以下问题被宣布“注册商标无效”。下面就来了解一下,注册…查看详情
- 瑞云服务云助力哈希公司,夯实服务,不断提升客户售后服务满意度
近日,哈希水质分析仪器(上海)有限公司(以下简称:哈希公司)与瑞云信息达成合作,将基于瑞云服务云搭建统一的售后服务平台,建立工单闭环的管理,实现对经销商的权限管理,完善配件管理,不断提高服务能力,切实让客户享受更加便捷,快速,专业的售后服务…查看详情
- 看电视直播的软件-手机电视直播app
电视已经成为我们生活中不可缺少的重要部分,电视直播最先出现在我们的电视机上,随着时代的变化,老式电视机在市面上几乎看不到了,但是又想看电视直播,怎么办呢?下面我就来为大家介绍看电视直播的软件,在手机上就可以操作的哦!1.有线电视3.4广电授…查看详情
- 微软CRM的功能有哪些?
现在,全球的软件公司都看到了信息化管理模式的发展前景,纷纷投入其中,就连微软这样的知名企业也不例外,推出了微软CRM。微软CRM的战略特点是为组织可以提供个性化的客户体验:在正确的时间、正确的地点,用正确内容与客户打交道,给予销售更积极主动…查看详情
- 盘点:市场上那些比较好用的erp系统!
Erp系统作为体现供应链思想的新一代信息系统,适应了时代发展和市场竞争需要,被企业纷纷采用。但市面上的产品多如牛毛,有好有坏,不知该如何选择?下面为你盘点市场上那些比较好用的erp系统。图片来源于网络 那些比较好用的erp系统: 1. SA…查看详情
- 选择erp服务器需要注意的几大问题
在选择erp系统软件时,企业通常都只会做关于erp怎么选怎么挑、erp的优势的功课,往往会忽略掉一个同样重要的问题:erp服务器。erp系统软件要想用得好,erp服务器功课不可少。下面小万就为大家分享一下关于选择erp服务器时需要注意的几大…查看详情
- 手写板app哪个好?好用的手写板app
现在的疫情已经持续了三年之久,对于上学的人来说,已经连续上了三年的网课,那么,上网课的时候,手写板软件是必不可少的,有了手写板之后,就可以快速的回答老师提出的问题。 1、实录repaper 这也是我们早以前就着手的,这是一个…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
邮箱:zjb@iwanshang.com
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的AI增效平台

400-0033-166
8:30-18:00















































注册有好礼



