数据分析方法论有效性的评判关键是什么?
2021-01-11 10:25:24 阅读(232) 评论(0)
1、在数据集成项目中,最困难的过程是数据分析。数据分析过程位于数据集成项目的整个过程(准备早期研究)—–数据分析—–界面实现)的第二步为第三步界面实现提供了充分的准备,因此数据分析的正确性在很大程度上决定了数据集成的成功实现和完成。如何有效地进行数据分析,如何提前在数据分析中尽量避免出现问题,直到实现为止?这是判断数据分析方法论有效的关键。经过几个项目的经验,我反思了做这些项目时更有效的方法和错误的方法,总结了一套我认为可行的数据分析方法。该数据分析方法仅适用于数据库-文件-数据库或数据库-数据库的分析,以及接口集成(如调用对方的webservice、EJB接口等。)不适用,在这种数据分析方法中,指导数据分析的步骤和需要注意的问题,编写这个blog,希望有同行的同学多交流。2、数据分析方法论中涉及的术语的解释:目标数据源是指需要在数据集成中导入数据的数据源,可以是数据库或文件。2、该方法所涉及的术语的解释:目标数据源是指需要在数据集成中导入数据的数据源,可能是数据库或文件。源数据源是指在数据集成中获取数据的数据源,可能是数据库或文件。字典代码以代码的形式存储在数据库中(如数字、英文字母等)。)而不是中文意思,这些代码称为字典代码。2.1.步骤2.1.1.分析目标数据源数据结构目标数据源可能是数据库或文件,但无论如何,它都有数据结构,首先要做的是分析目标数据源数据结构,在分析目标数据源数据结构时,分析清楚:表目标数据源需要交换什么表,这些表的含义是什么。这些表中包含的字段、字段类型和长度。分析每个字段的含义,包括字段的中文含义、字段所涉及的字典代码和字段规则(如业务规则、生成规则)。在分析了上述表、字段和字段的含义后,形成了以下结构的文档:字典代码字段规则idnumber(10)主键流量-流量,unitcodevarchar2(19)单位编码字典-2.1.2.完成第一步后,分析目标数据源的表关系,然后分析目标数据源的表关系。分析表关系最重要的是分析每个表之间的关联关系(如一对一、一对多、主键和外键),其次,需要根据业务分析每个表之间的隐性关联,例如,只有当A表中的某个值为03时,才与B表相关。对目标数据源的表关系进行分析后,形成以下Rose图:2.1.3.数据源分析的数据结构方法与2.1相同.1.分析对象改为源数据源,分析后形成相同的2.1.1中的文档。对目标数据源的表关系进行分析后,形成以下Rose图:2.1.3.分析源数据源的数据结构方法与2.1相同.1.分析对象改为源数据源,分析后形成相同的2.1.文档1.2.1.4.分析源数据源的表关系方法与2.1相同.2.分析对象改为源数据源,分析后形成相同的2.1.2中的Rose图。2.1.5.根据目标数据源的表关系,根据目标数据源的表关系,分析其与源数据源表的对应关系。在这一步中,我们需要清楚地分析目标数据源的表数据来自源数据源,以及如何获取这些数据,分析后,可以形成一个标准来验证数据集成是否正确,也就是说,目标数据源的数据量应该与来源数据源的数据量一致。在分析过程中,仍然根据目标表的业务意义在源数据源的表中找到具有相同意义的表。在分析过程中,可能会遇到以下情况:意义相同的表通常使用一个表存储目标数据源和源数据源,意义相同的表通常是一对一的数据关系,例如,目标数据源中有一个表是常住人口的基本信息,源数据源中有一个常住人员的基本信息,两个表可以对应。当然,有时意义不一定相同,这需要从业务层面来判断。在这种情况下,目标数据源通常是一个表,源数据源是多个表。此时,形成多对一关系。例如,目标数据源中有一个表是项目表,源数据源中有几个表,如手机和证券。此时,您需要将手机和证券表对应于项目表。或者可能会遇到这样的现象,目标数据源是一个表,源数据源也是一个表,但源数据源每行记录包含两种类型的目标表记录,在这种情况下需要将源数据源记录分成两个进入目标表,如目标数据源是迁出表,其存储模式是单独记录存储,源数据源也是迁出表,但是,它的存储方式是在同一条记录中进行迁出和迁出。此时,将源数据源的迁出表的一行记录分为两条进行导入。具有包含意义的表与具有包含意义的表相反。含义表与上述含义表相反。根据业务的对应关系,这是最复杂的。例如,可能会遇到这样的现象。当源数据源中表的一个字段的值为多个时,需要将其分成两个记录并导入到目标表中。综上所述,目标数据源表和源数据源表可能存在一对一、一对多、多对一、多对多、条件对应几种关系,分析后形成以下文档:目标数据源数据源验证标准AAAA.数据量==A.数据量(变化(新增、编辑、删除)BB CB.数据量==B.数据量 C.数据量C DDC.数据量 D.数据量=D.数据量 C.数据量=D.数据量(D.wplx=’03’)D.数据量=D.数据量(D.wplx=’05’)EEE.数据量=E.数据量*2FFF.数据量=F.数据量/2(F.qrsj=F.qcsj)GGG.数据量=G.数据量 G.数据量(G.name包含,的总数-1)2.1.6.根据表的对应关系分析字段的对应关系和转换规则,根据表的单一对应关系(如目标数据源的B表对应源数据源的B表)、C表需要分为B对应B和B对应C两个步骤进行分析)来分析每个表中字段的对应关系和转换规则,相应的方法是:首先在相应的表中找到相应的字段,如果找不到相应的字段,需要从业务意义的角度推测字段是否需要合并多个字段或拆分字段,或根据某些业务规则生成字段的值。找到相应的字段后,首先根据类型和长度分析是否需要处理类型和长度,然后分析是否通过与其他表相关的字段获得,然后分析字段是否涉及字典代码。如果涉及,则需要比较两侧的字典代码是否一致,如果不一致,则需要形成两侧字典代码的对应关系,最后分析字段是否涉及业务意义,如果涉及,应注明如何处理。分析完成后,形成以下文档:idnumber(10)表名字段类型及长度源数据源字段类型及长度转换规则.idnumber(10)unitcodevarchar2(19).xzqh 表名.unitvarchar2(8) varchar2(20)单位代码字典映射contentvarchar2(100)Substr(表名.content,0,50、Varchar2(100)ifmonthVarchar2(1)If(表名.createdate.月份==系统时间的月份) Return‘1’;ElseReturn‘2’.unitnameVarchar2(100)UnitNames.unitNameVarchar2(100)表名.xzqh 表名.unit=UnitNames.UnitCode2.2.需要注意的问题是,数据集成是系统中最重要的基础,因此,在进行数据集成时,特别需要仔细考虑不会对数据产生破坏性影响,这也是数据分析过程中需要仔细考虑的问题。2.2.1.在进行数据分析时,需要考虑数据覆盖/混乱的问题,以便在集成数据后是否会非法覆盖或混淆现有数据。这个问题通常是由主键引起的,在进行数据分析时需要考虑。2.2.2.在进行数据分析时,需要考虑数据集成后可能出现的错误。对于这些可能出现的错误,需要制定相应的补偿方案,以避免数据的损坏。2.2.2.在进行数据分析时,需要考虑数据集成后可能出现的错误。对于这些可能出现的错误,需要制定相应的补偿方案,以避免数据的损坏。2.2.3.源数据源数据质量问题的解决方案需要考虑如何处理或避免源数据源本身的数据质量问题。2.2.4.在整个数据分析过程中,业务专家的支持可以看出,业务专家起着非常重要的作用。可以说,如果没有业务专家,数据分析很可能会失败,或者需要走很多弯路才能最终探索。可以肯定的是,在业务专家的支持下,整个数据分析过程将大大延长。从这个角度可以看出,在进行数据分析时,尽量得到业务专家的支持。3、总结上述方法对数据分析的过程和避免问题的方法进行了一定的描述。在实际的数据分析中,最重要的是负责数据分析的人对系统的理解。有系统设计经验的人成功进行数据分析的概率要高得多。一些非常专业的系统必须依靠有相应设计经验的人才来完成,比如流程系统的数据集成。在数据分析过程中,可以制定出判断数据集成是否成功的标准,也可以列为TDD的入口条件,J。在数据分析过程中,可以制定出判断数据集成是否成功的标准,也可以列为TDD的入口条件,J。方法论仍然是理论。我不是一个那么讲理论的人,但我不否认理论对实践有很好的指导作用。最好避免在实践过程中走太多弯路,将理论与实践相结合。理论指导实践,实践改进理论。
推荐阅读
- 2021最全9款免费追剧软件,追美剧、韩剧、日剧、泰剧的神器!
现在越来越多的朋友喜欢在手机上追剧了,但是很多手机APP都需要收费,少则10元/月,多则30元,有没有可以免费追剧的软件呢?小万整理了市场上最受欢迎的9款免费追剧软件供各位作一个参考。 1.人人视频“人人视频”APP是一款提供美剧、日剧、韩…查看详情
- 抖音点赞量能挣钱是真的吗?
优质答案(1) 抖音点赞多的话会让更多人看到你的作品,证明你的作品质量还是比较高的,非常的受人们的欢迎,所以说才会有这么多的点赞量。 优质答案(2) 抖音赞其实是不能换钱的哟,不管多少赞都不能换钱,但是赞越多,让你的视频越多的朋友…查看详情
- 2019年下半年小程序5大趋势,值得*!
互联网时代,什么才是真正的运营?是更多的营销手段还是吸引更多的客户?事实上,有人有钱也不一定能提高转化率,而伴随着小程序风口到来,如何通过低成本渠道获取高精准客户成为新的运营方向。 经过二年五个月跌宕起伏的发展,小程序终于成为整个互联网行业…查看详情
- 什么是声卡
声卡是什么,有什么作用?声卡由各种电子器件和连接器组成。它是连接器一般有插座和圆形插孔两种,用来连接输入输出信号。声卡的基本功能是把来自话筒、磁带、光盘的原始声音信号加以转换,输出到耳机、扬声器、扩音机、录音机等声响设备,或通过音乐设备数字…查看详情
- vlookup怎么跨表匹配
excel表格vlookup跨表格运用?你可以运用VLOOKUP跨表格来对Excel中的数据进行查询。首先,你要在第一张表格的列中添加一列,会用作查询的关键字; 然后,打开第二张表格,找到你需要的关联数据,在单元格中使用VLOOKUP函数…查看详情
- 许可证号是什么?要怎么才能查询?
许可证号怎么查?1. 营业执照到公司所在的省市级工商局或者国家工商总局网站上的企业信用信息管理系统上查询; 2. 生产许可证需要看是哪一级质监局颁发的,省级质监局发的,到所在地省质监局网站上查询;国家局颁发的,需要到国家质检总局网站上…查看详情
- 冰箱什么牌子的好,还是要看以下的推荐
家家户户基本上都会用到一些冰箱,但是因为家庭人口不一样以及家庭需求不一样,所以选择的冰箱类型也基本上都不一样,在我们日常生活当中,冰箱什么牌子的好,还是要看以下的推荐。 1、海尔冰箱 海尔这个品牌也算是知名的大品牌了,在消…查看详情
- crm客户销售系统软件能帮销售人员做什么?
销售人员每天的工作可以分为三类:一类是客户咨询、一类是客户开发、一类是客户维护。如果将其三类工作内容讲清楚,就会发现每一个销售人员的工作量是巨大的。要想让一个销售人员更好地完成自己的工作、做出业绩、展现实力,crm客户销售系统软件是绝对不可…查看详情
- 如何选择博客类型的网站?需要注意哪些问题?
企业网站有很多种不同的类型,每一家企业可能销售的产品想要带来的发展效果不一样,所以说在进行网站建设的时候,也应该有选择适合自己的方式,比如说有些企业就会选择博客类型的网站。其实网站在建设的时候,如果选择博客类型的网站,也应该要注…查看详情
- 物业收费管理软件有哪些?这几款物业收费管理软件好用
每一个小区都有物业,物业更好的管理才能够让小区生活变得更加美好,其实物业在工作的过程当中也是有很多业务的,首先就是要进行小区管理的收费,其实在收费的时候找到一款比较不错的软件,系统能够提供很多的帮助,也能够节省很多的时间。那么物…查看详情
- 可以打单的软件有哪些 可以打单的软件排行榜
现在有很多的场景都是需要打单的,而且现在特备是游戏行业,现在很多的游戏行业这一块比较盛行,下面*就给大家来详细介绍一下可以打单的软件有哪些 可以打单的软件排行榜这一块的相关内容,希望能帮助到大家。 可以打单的软件排行榜 1.《代…查看详情
- 标准偏差怎么算 标准偏差计算方法
在excel中我们经常需要计算一组数据的标准差与相对标准偏差,但很多朋友还不知道怎么算,在工作中很多人都不知道标准方差怎么计算,下面*就给大家来详细介绍一下标准偏差怎么算 标准偏差计算方法这一块的相关内容,希望能帮助到大家。 exc…查看详情
- 企业网站怎么推广才能有效果
随着互联网的热潮,越多越多企业都开始搭建网站,但是在我们辛辛苦苦建站后的网站,如果没有用户来访问,心里难免会觉得难受。因为无论是营销企业网站还是独立博客网站,都需要用户来点击访问的,只要用户点击访问了,才有机会推出企业的产品或者业务。所以我…查看详情
- 眼镜品牌排行榜
眼镜是一种视力辅助工具,现已成为时尚潮流元素之一,其品牌也越来越多。在众多眼镜品牌中,哪些是顶尖的呢?下面列出了几个眼镜品牌的排行榜和详细描述,以供参考和选择。 1.Ray-Ban Ray-Ban成立于1937年,是一家历史悠久的眼…查看详情
- 免费申请网站 怎样注册网站免费注册
现在不管是个人还是企业来说创建自己的一个网站都是必要的,下面万商云集*给大家来详细介绍下怎样注册网站免费注册这方面的详细内容。希望能帮助到大家。 Step1:找一个简单的建站工具 在不懂技术的情况下,新手就得通过个人网站建站工具,来生成…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
邮箱:zjb@iwanshang.com
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的AI增效平台

400-0033-166
8:30-18:00















































注册有好礼



