常见的数据分析方法论
2021-01-08 08:55:02 阅读(203) 评论(0)
掌握excel、spss、sas、在这些分析工具之后,让我们了解一下数据分析的基本方法。事实上,数据分析方法并不复杂。我们需要掌握一些核心分析方法。重点包括两部分,一部分是统计分析方法论:描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主要成分和因素分析、时间序列分析、决策树等。;一种是营销管理常用的分析方法论:SWOT、4P、PEST、SMART、5W2H、Userbehavior等。1、统计分析方法论:1.描述统计(Descriptivestatistics):描述统计是通过图表或数学方法整理和分析数据数据,估计和描述数据的分布状态、数字特征和随机变量之间的关系。目的是描述数据特征,找出数据的基本规律。描述统计分为三个部分:集中趋势分析、离中趋势分析和相关分析。(1)数据频数分析:在数据预处理部分,我们提到使用频数分析和交叉频数分析来检测异常值。此外,还可以发现频数分析中的一些统计规律。例如,低收入被调查者的用户满意度高于高收入被调查者,或女性的用户满意度低于男性。然而,这些规律只是表面特征,必须在以后的分析中进行测试。(2)数据集中趋势分析:数据集中趋势分析用于反映数据的一般水平,常用指标包括平均值、中位数和众数。每个指标的具体意义如下:平均值:是衡量数据中心位置的重要指标,反映了算术平均值、加权算术平均值、调和平均值、几何平均值等一些数据必然性的特征。中位数:它是反映数据中心位置的另一个指标。其确定方法是将所有数据从小到大排列,中心数据值为中位数。众数:指数据中频率最高的数据值。如果每个数据之间的差异较小,则平均值具有较好的代表性;如果数据之间的差异较大,特别是有个别极端值,则中位数或众数具有较好的代表性。(3)数据的离散度分析:数据的离散度分析主要用于反映数据之间的差异,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。(4)数据分布:在统计分析中,通常假设样本分布为正态分布、数据正态离群值检验、已知标准差Nair检验、未知标准差、Grubbs检验、Dixon检验、偏差峰度法等。常用的偏度-峰度法需要使用偏度和峰度来检查样本是否符合正态分布。样本分布的偏差方向和程度用偏差来衡量;样本分布曲线的峰值程度用峰值来衡量。一般来说,如果样品偏差接近0,峰值接近3,则可以判断整体分布接近正态分布。(5)绘制统计图:以图形的形式表达数据,比用文字表达更清晰、更简洁。在SPSS软件中,可以轻松绘制条形图、饼图、折线图等各种变量的统计图形。2.假设检验:是数理统计中根据一定假设条件从样本推断整体的一种方法。具体做法是:根据问题的需要,对研究的整体进行一些假设,并将其记录为H0;选择合适的统计量,使H0成立时分布为已知;统计量的值由实测样本计算,并根据预先给定的显著性水平进行测试,以拒绝或接受H0的判断。常用的假设检验方法有u-检验法、t检验法、χ2检验法(卡方检验)、F—检验方法、秩序和检验等。3.相关分析:相关分析是研究随机变量之间关系的统计方法,研究现象之间是否存在依赖关系,探讨具体依赖关系的相关方向和程度。常见的有线性相关分析、偏相关分析和距离分析。在实际应用中,相关分析与回归分析密切相关。然而,在回归分析中,我们关心的是一种依赖于另一种(或一组)随机变量X的函数形式。在相关分析中,讨论的变量具有相同的地位,分析侧重于随机变量之间的各种相关特征。例如,以X、Y分别记住小学生的数学和语文成绩,对两者的关系感兴趣,而不是X来预测Y。4.方差分析(AnalysisofVariance,简称ANOVA):又称“变异数分析”或“F检验”.A.Fisher发明了两个或两个以上样本均数差异的显著性测试。由于各种因素的影响,研究数据呈波动状。波动的原因可分为两类,一类是不可控的随机因素,另一类是影响研究结果的可控因素。方差分析从观测变量的方差开始,研究控制变量中哪些变量对观测变量有显著影响。5.回归分析:回归的主要类型有:线性回归、曲线回归、二元logistic回归、多元logistic回归。回归分析的应用非常广泛,统计软件包使各种回归方法的计算非常方便。一般来说,回归分析是确定变量之间的因果关系,建立回归模型,根据测量数据解决模型参数,然后评估回归模型是否能很好地拟合测量数据;如果可以很好地拟合,则可以根据自变量进行进一步预测。6.聚类分析:聚类主要解决“物以类聚,人以群分”的问题,比如收入分群,高富帅VS矮丑穷;比如职场分组,职场精英VS职场小白等等。聚类的方法层出不穷,目前最流行的方法是根据用户之间的距离来划分用户。一般的想法是:首先确定用户选择哪些指标;然后计算用户之间的距离,距离计算公式,最常用的是直线距离(选择指标作为维度,用户在每个指标下有相应的值,可以作为多维空间的一个点,用户之间的距离可以理解为两者之间的直线距离。);最后,聚类方法将彼此距离较短的用户聚为一类,类与类之间的距离相对较长。常用的算法k-means、分层,FCM等。7.判断分析:从已知的各种分类情况中总结规律(训练判断函数)。当新样品进入时,判断其与判断函数的相似性(概率最大、距离最近、距离最小等判断标准)。常用的判别方法:最大似然法、距离判别法、Fisher判别法、Bayes判别法、逐步判别法等。注意事项:a.判断分析的基本条件:分组类型在两组以上,解释变量必须可测;b.每个解释变量不能是其他解释变量的线性组合(例如,当多个共线性情况发生时,权重的判断会出现问题);c.各解释变量之间服从多种正态分布(不符合时可使用Logistic回归替代),而且每组解释变量的协方差矩阵是相等的(当每组协方差矩阵有明显差异时,判断函数是不同的)。相对而言,即使判断函数违反上述适用条件,也非常稳定,对结果影响不大。相对而言,即使判断函数违反上述适用条件,也非常稳定,对结果影响不大。应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者、公司是否成功、学生是否被录用等)。临床上用于识别和诊断。8.主要成分和因素分析:主要成分分析的基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下,将多个指标转化为几个综合指标(主要成分),即每个主要成分都是原始变量的线性组合,每个主要成分之间不相关,使主要成分比原始变量具有更好的性能(主要成分必须保留原始变量90%以上的信息)把握问题本质的目的。因素分析的基本原理:利用维度降低的思想,从研究原始变量相关矩阵内部的依赖关系开始,将变量表示为各因素的线性组合,从而将一些关系复杂的变量归因于少数综合因素。因素分析的基本原理:利用维度降低的思想,从研究原始变量相关矩阵内部的依赖关系开始,将变量表示为各因素的线性组合,从而将一些关系复杂的变量归因于少数综合因素。(因素分析是主要成分的推广,更倾向于描述原始变量之间的关系,而不是主要成分分析)。9.时间序列分析:经典的统计分析假设数据序列是独立的,而时间序列分析则侧重于数据序列的相互依赖。后者实际上是对离散指标随机过程的统计分析,因此也可以看作是随机过程统计的一部分。例如,记录了某个地区的第一个月、第二个月、第N个月的降雨量,并利用时间序列分析方法预测未来几个月的降雨量。10.决策树(DecisionTree):它是一种直观利用概率分析的图解方法,在已知各种情况发生概率的基础上,通过构成决策树来获取净现值的预期值大于或等于零的概率,评估项目风险,判断其可行性。因为这种决策分支画得像一棵树的树枝,所以被称为决策树。在机器学习中,决策树是一种预测模型,它代表着对象属性与对象值之间的映射关系。Entropy=使用算法ID3和C4,系统的混乱程度.用熵生成树算法5和C5.0。这个测量是基于信息学理论中熵的概念。这些都是常见的数据分析方法论。基本上,我们可以通过结合更多的案例练习来理解发生了什么。
推荐阅读
- 最热完本小说排行榜,‘剑来’高居榜首
看小说可以转移注意力,缓解心理压力。当你躁动不安时,不妨坐下静静品读一本你比较感兴趣的小说,陶冶情操,修身养性。所以我整理了一些已经完结的小说,完本小说排行榜前六名,我来给大家揭晓!1.《剑来》《剑来》是众多小说网站中的一部完结网络小说,它…查看详情
- 免费的英语学习软件 2022好用的英语学习软件
现在越来越多的人对于学习英语的需求是越来越大了,现在很多的人都在自学英语,但是很多的玩家都不知道什么软件比较适合自学英语,下面万商云集小编就为大家介绍下2022免费的英语学习软件,希望能帮助到大家。小A阅读 把英语学习和阅读结合起来,…查看详情
- 服务社这款企业管理软件免费版全面解析
随着科技的进步与发展,各大企业也随着上市。一个好的企业更是需要一个好的管理。目前,市场上的大部分企业管理软件都为收费软件。经过各种交流与讨论,本文为大家推荐这一款免费的企业管理软件。 关于“服务社”这款功能强大的企业管理软件,它集成了主控系…查看详情
- 怎么做自己的小程序?有复杂的开发制作,也有简单的模板搭建
微信小程序覆盖的行业范围很广泛,因此现在越来越多人都想到利用小程序来引流获客。随着各种小程序制作工具的兴起,如今个人制作小程序已经不是什么难事,懂代码的,可以用官方开发工具自己开发;不懂代码的,可以用第三方小程序工具来制作。那么怎么做自己的…查看详情
- 服装行业企业网站应该具备的4个特点
通过线上销售提高服装整体销量,早已成为服装行业的共识。绝大部分服装企业都拥有自己的企业网站用以推广、销售商品,有的甚至建设了好几个企业网站。但企业网站建设不在数量,关键是运营,运营得好一个企业网站就能带来巨额收入。那么服装行业企业网站如何运…查看详情
- 专利权的保护期限是多久?
在平时很多的小伙伴都不知道专利权的保护期限的基本情况,而且对专利权的保护期限都不是很熟悉,下面万商云集小编就为大家整理了专利权的保护期限这方面的相关内容,希望下面的内容能帮助到各位。 一、专利权的保护期限是多久? 专利权的保护期…查看详情
- 企业运营网站的几个小技巧
随着越来越多的企业对网站的认识,网站运营也走入了大家的视野,成为大家关注的焦点,网站建设好后,只有经过有效的运营才能达到企业想要的效果,所以网站运营对企业来说是非常重要的。往大了说网站运营的内容包括了网站的策划、建设、测试、项目执行以及后期…查看详情
- 数组公式是什么意思
求和公式什么意思?能把一组有规律的数组利用简单的等式计算出来的公式就叫做求和公式,这个公式不是固定的一个式子.是自己通过找规律总结出来的,化简得(n-2)an-(n-1)a(n-1)=a1,这对于任一N均成立 当n取n-1时式子变为,(n…查看详情
- 2022年五大业务流程管理软件
都2022年了不会还有人没有流程管理软件吧,那今天我就来给大家介绍几款2022年五大业务流程管理软件,只要你下载了这几款软件,你就会实现流程自由,还在担心没有软件吗?那就赶紧看下去这篇文章吧。 1.吸管业务流程管理软件 这…查看详情
- 现在加盟什么店比较火
随着消费者需求的不断变化,加盟行业也在不断发展,一些行业因为技术进步或者市场供求关系的变化而随时变化,而一些行业则因为顾客偏好和经济环境的变化而成为热门。本文将从餐饮、教育、美容美发、生活服务四个方面介绍目前比较火的加盟店。 一、餐饮…查看详情
- 微信小程序在哪里找?
微信小程序是一种类似于App的应用程序,可在微信上运行,它具有独立的开发、运营、营销等功能。微信小程序被广泛应用于移动支付、社交分享、游戏娱乐、在线购物等领域,成为了个人、商家、企业等各个领域中不可或缺的重要组成部分。 在寻找微信小程…查看详情
- 微信注销多久申请新号
微信号注销多久可以重新注册? 这个需要三个月或者半年之后才可以,如果你在注销期间可以通过登录取消注销。圣样子微信号就不是注销状态,就可以重新注册登陆的,然后就不需要等半年或者三个月之内再重新注册,因为注册一个微信号还是挺麻烦的,需要绑…查看详情
- 盘点五款省时省力的图书管理软件,轻松管理图书借阅情况
图书馆对于大学生来说或者一些考研、博士来说是一个黄金圣地,书中不是说了嘛,书中自有颜如玉,书中自有黄金屋,那么图书管理软件都有哪些呢,要是被借走了咋办呢,今天我们几来盘点一下图书管理软件都有哪些。 1、小满图书管理 这是一…查看详情
- 唱歌录音软件 唱歌录音软件排行榜前十名
现在很多人喜欢把自己唱歌的结果录下来,那么录音设备就是很重要的存在了,下面万商云集小编给大家i详细介绍下唱歌录音软件,希望能帮助到大家。 一、录音宝 录音宝是一款支持实时录音和录音转文字的手机录音软件、录音专家、录音机及录音转文字助…查看详情
- 二级域名用来做网站都有哪些好处?二级域名优势介绍
很多商铺或者是企业都是拥有自己网站的,做的人都知道选择的域名不一样,网站带来的优势和效果也是不同的,有些企业在做网站的时候很纠结,不知道是使用一级域名还是二级域名比较好,其实二级域名也是非常不错的,而且也有很多的优势,那么二级域…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00
















































注册有好礼



