服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

高层次数据分析的完整知识结构

2021-01-08 10:13:43 阅读(192 评论(0)

[摘要]作为一名数据分析师,无论最初的职业定位方向是技术还是业务,数据管理都将在最终发布到一定阶段后发挥作用。因此,高层次的数据分析师需要有完整的知识结构。1.数据采集的意义在于真正了解数据的原始外观,包括时间、条件、格式、内容、长度、限制等。这将有助于数据分析师更有针对性地控制数据生产和收集过程,避免违反数据收集规则造成的数据问题;同时,对数据收集逻辑的理解增加了数据分析师对数据的理解,特别是数据中的异常变化。例如,Omniture中的Prop变量长度只有100个字符,在数据采集和部署过程中,包含大量中文描述的文本不能赋值Prop变量(超过的字符将被切断)。在Webtrek323之前的Pixel版本中,默认情况下,最多只能发送不超过2K的数据。当页面包含过多的变量或变量长度超过限制时,通常的解决方案是使用多个sendinfo分条发送;在325后的pixel版本中,单个信息默认最多可以发送7K数据,非常方便地解决代码部署中单个信息过载的问题。(Webtrekk基于请求量付费,请求量越少,成本越低)。当用户在离线状态下使用APP时,数据无法连接,导致正常时间内数据统计分析延迟。直到设备下次联网,数据才能发布并纳入当时的时间。这就产生了不同时间观察相同历史时间的数据。在数据采集阶段,数据分析师需要更多地了解数据生产和采集过程中的异常情况,以便更好地追根溯源。此外,这也可以在很大程度上避免“垃圾数据进导致垃圾数据出”的问题。2.数据存储不仅像我们看到的数据库那么简单,无论数据存储在云中还是本地。例如,数据存储系统是MySql、Oracle、SQLServer或其他系统。如何将数据仓库结构与各库表、星形、雪花型等相关联。生产数据库接收数据时是否有一定的规则,例如只接收特定类型的字段。如何处理生产数据库的异常值,强制转换、留空或返回错误。生产数据库和数据仓库系统如何存储数据、名称、含义、类型、长度、精度、是否空、是否唯一、字符编码、约束条件和规则。接触到的数据是原始数据还是ETL后数据,ETL规则是什么。数据仓库数据的更新机制是什么,是全更新还是增量更新。不同数据库和库表之间的同步规则是什么,哪些因素会导致数据差异,以及如何处理差异。在数据存储阶段,数据分析师需要了解数据存储中的工作机制和过程,核心因素是基于原始数据的处理和最终获得的数据。由于数据在存储阶段不断动态变化和迭代更新,其及时性、完整性、有效性、一致性和准确性往往无法保证软硬件和内外部环境问题,这将导致以后的数据应用问题。3.数据提取数据提取是取出数据的过程,数据提取的核心环节是从哪里取出,何时取出,如何取出。从哪里获取,数据源-不同数据源获得的数据结果可能不一致。提取时间-不同时间提取的数据结果可能不一致。如何提取,提取规则-不同提取规则下的数据结果难以一致。数据分析师在数据提取阶段首先需要具备数据提取能力。SelectFrom语句是SQL查询和提取的必备技能,但即使是简单的数学工作也有不同的层次。第一层是根据条件从单个数据库中提取数据的能力。where是基本条件句;第二层是掌握跨库表提取数据的能力。不同的join有不同的用法;第三层是通过优化嵌套、筛选的逻辑层次和遍历次数,优化SQL语句,减少个人时间浪费和系统资源消耗。二是了解业务需求的能力。例如,业务需要“销售”字段。相关字段至少包括产品销售和产品订单金额。区别在于是否包括优惠券、运费等折扣和费用。包括这个因素是订单金额,否则是产品单价×产品销量的数量。4.数据挖掘数据挖掘是提炼海量数据数据价值的关键。以下是算法选择的基本原则:没有最好的算法,只有最合适的算法。算法选择的原则是准确性、可操作性、可理解性和可应用性。没有算法能解决所有问题,但精通算法能解决很多问题。挖掘算法最困难的是算法调优,同一算法在不同场景下设置相同的参数,实践是获得调优经验的重要途径。数据分析师在数据挖掘阶段应掌握数据挖掘的相关能力。一是数据挖掘、统计学、数学基本原理和常识;二是熟练使用数据挖掘工具,Clementine、SAS或R都是可选项,如果是程序背景,也可以选择编程;第三,需要了解常用的数据挖掘算法以及每个算法的应用场景和优缺点。5.数据分析数据分析比数据挖掘更倾向于业务应用和解释,当数据挖掘算法得出结论时,如何解释算法对业务的实际意义,如何将挖掘结果反馈给业务理解和实施是关键。6.数据显示数据显示是数据可视化的一部分,数据分析师如何向业务展示数据观点。除遵循各公司统一规范的原则外,数据显示的具体形式还取决于实际需要和场景。基本质量要求如下:工具。PPT、Excel、Word甚至电子邮件都是很好的显示工具,任何工具都很强大。形式。图文并茂的基本原则更容易理解,生动、有趣、互动、讲故事都是加分项。原则。领导喜欢读图,看趋势,想结论,执行层喜欢读数,读文字,看过程。场景。大型会议PPT最合适,报告显示Word最实用,Excel更方便。最重要的是,数据显示总是有助于数据内容,有价值的数据报告是关键。7.数据应用数据应用是数据着陆价值的直接体现。这一过程要求数据分析师具备数据沟通能力、业务推广能力和项目工作能力。数据通信能力。简单的数据报告和简洁的数据结论更有利于业务理解和接受。例如,例子是非常实用的技能。业务推广能力。在业务理解数据的基础上,促进业务实施,实现数据建议。从最重要、最紧急、最有效的业务环节开始是一个很好的方法。同时,考虑到业务着陆的客观环境,即良好的数据结论需要具备客观着陆的条件。项目工作能力。数据项目工作是一个循序渐进的过程。无论是数据分析项目还是数据产品项目,数据分析师都需要有计划、领导、组织和控制项目的能力。

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

最新文章