数据分析人员称道和接受的数据降维方法
2021-01-11 10:52:13 阅读(184) 评论(0)
近年来,由于数据记录和属性规模的快速增长,也出现了大数据处理平台和并行数据分析算法。同时,这也促进了数据降维处理的应用。事实上,数据量有时过多。有时在数据分析应用中,大量的数据会产生更糟糕的性能。最新的例子是使用2009KDChalenge大数据集来预测客户流失。数据集维度达到15000维。大多数据挖掘算法直接逐列处理数据,当数据数量较大时,算法越来越慢。这个项目最重要的是减少数据列数,尽可能少地丢失数据信息。以这个项目为例,我们开始讨论数据分析师在当前数据分析领域称赞和接受的数据降维方法。缺失值比率(MissingValuesRatio)该方法是基于包含过多缺失值的数据列,包含有用信息的可能性较小。因此,数据列缺失值大于一定阈值的列可以去除。阈值越高,降维方法越积极,即降维越少。该方法示意图如下:低方差滤波(LowVarianceFilter)类似于上一种方法,假设数据列变化很小的列所包含的信息量较少。因此,所有数据列方差小的列都被删除了。需要注意的是,方差与数据范围有关,因此在采用该方法之前需要对数据进行归一化。算法示意图如下:高相关滤波器(HighCorrelationFilter)高相关滤波器认为,当两列数据变化趋势相似时,也显示了它们所包含的信息。这样,机器学习模型就可以通过使用类似列中的一列来满足。通过计算相关系数来表示数值列之间的相似性,通过计算皮尔逊卡方值来表示名词类列的相关系数。两列相关系数大于一定阈值的列只保留一列。还需要注意的是,相关系数对范围敏感,因此在计算前也需要对数据进行归一化。算法示意图如下:随机森林/组合树(RandomForests)组合决策树通常被用作随机森林,在选择特征和构建有效的分类器时非常有用。一种常用的降维方法是根据每个属性的统计结果,对目标属性产生许多巨大的树木,然后找到信息量最大的特征子集。例如,我们可以将一棵非常大的数据集生成非常浅层的树,每棵树只训练一小部分属性。若属性往往成为最佳分裂属性,则很可能是需要保留的信息特征。与其他属性相比,随机森林数据属性的统计评分将向我们揭示哪个属性是预测能力最好的属性。算法示意图如下:主成分分析(PCA)主要成分分析是一个统计过程,通过正交变换将原始n维数据集转换为新的数据集,称为主要成分。在变换后的结果中,第一个主要成分具有最大的方差,每个后续成分在与上述主要成分正交条件的限制下具有最大的方差。降维时只保存前m(m<n)保持最大数据信息量的主要成分。需要注意的是,主要成分的转换对正交向量的尺度很敏感。变换前需要对数据进行归一化处理。还需要注意的是,新的主要成分不是由实际系统产生的,因此在PCA转换后会失去对数据的解释。如果数据的解释能力对你的分析很重要,那么PCA可能不适用于你。算法示意图如下:消除反向特征(BackwardFeatureElimination)在这种方法中,所有分类算法首先使用n个特征进行训练。每次降维操作,用n-1个特性对分类器进行n次训练,获得新的n个分类器。将新分类器中错分率变化最小的分类器使用的n-1维特征作为降维后的特征集。通过不断迭代这个过程,可以得到降维后的结果。n-k维特征分类器是在第k次迭代过程中获得的。通过选择最大的错误容忍度,我们可以得到在选择分类器时达到指定分类性能的最小特征。算法示意图如下:前向特征结构(ForwardFeatureConstruction)构建前向特征是消除反向特征的反过程。在前向特征的过程中,我们从一个特征开始,每次训练增加一个特征,最大限度地提高分类器的性能。前向特征结构和反向特征消除都非常耗时。它们通常用于输入维数相对较低的数据集。算法示意图如下:我们选择2009KDChanlenge的切割数据集,比较这些降维技术的降维率、精度损失率和计算速度。当然,最终的准确性和损失率也与所选数据分析模型有关。因此,最终降维率和精度的比较是在三种模型中进行的,即决策树、神经网络和简单贝叶斯。通过运行优化循环,最佳循环终止意味着低纬度和高精度取决于七种降维方法和最佳分类模型。通过将训练模型的基准精度与ROC曲线下的面积进行比较,最终最佳模型的性能。以下是对所有比较结果的比较。从上表的比较可以看出,数据降维算法不仅可以提高算法的执行速度,还可以提高分析模型的性能。采用数据集:缺失值降维、低方差滤波、高相关滤波或随机森林降维时,表中的AoC在测试数据集中略有增长。的确,在大数据时代,数据越多越好,似乎已经成为公理。当数据集宝航行过多的数据噪声时,算法的性能会导致算法的性能达不到预期。只有少量甚至无效的信息才能帮助我们构建更具可扩展性和通用性的数据模型。新数据集中的数据模型可能会表现得更好。最近,我们咨询了Linkedin数据分析小组中最常用的数据降维方法。除了本博客中提到的数据降维方法外,它还包括:随机投影(RandomProjections)、非负矩阵分解(N0n-negativeMatrixFactorization),自动编码(Auto-encoders),卡方检测和信息增益(Chi-squareandinformationgain),多维标定(MultidimensionalScaling),相关性分析(CoorespondenceAnalysis),因子分析(FactorAnalysis)、聚类(Clustering)贝叶斯模型(BayesianModels)。感谢Asteriosstergioudis、RaoulSavos和MichaelWill在Linkedin小组中提供意见。本博客在KNIMEEXAMPLES服务器上描述了“003_”的工作流程Preprocessing/003005_dimensionality_reduction可以在目录中找到。本博客在KNIMEEXAMPLES服务器上描述了“003_”的工作流程Preprocessing/003005_dimensionality_reduction可以在目录中找到。2009KDChalenge大小数据集下载地址:下载。本博文只是对整个项目的简要总结,如果您想了解更多细节,可以阅读相关白皮书,白皮书下载地址:链接本博文原载:dataminingreporting.com#sthash.3vHXD9wv.dpuf翻译后记本文翻译自7machineleningtechniquesfordimensioninityreduction。为了方便解释,白皮书在原有的基础上进行了比较,每种方法的示意图都是从白皮书中添加的,有兴趣的可以直接阅读白皮书。翻译后没有仔细校对。如果有错误,请读者雅正。
推荐阅读
- 2020“十大复苏标杆企业”出炉,快看都有谁!
经过半个月的紧张评选由万商云集联合封面新闻华西都市报举办的2020中小企业“复苏标杆”评选活动完美落下帷幕“十大复苏标杆企业”顺利出炉↓↓↓2020年,即将走远我们期待2021再续辉煌 不惧挑战…查看详情
- 免费抠图软件有哪些?这几款让大家轻松抠图
日常的工作或者是生活中,如果涉及到了抠图的问题,一些不专业的人员,可能就会十分发愁了。其实通过一些免费抠图的软件,就能够让大家轻松抠图,那么免费抠图软件有哪些呢?这几款就很好用,一起来看看吧。 1、抠图宝 抠图宝这款软件的…查看详情
- 2021最热门的数据分析软件排行
现今是正是信息化的时代,数据的采集、组成与分析都是众多企业所关心的问题。而这时如果使用一款实用的数据分析软件便能使这项工作乃至企业运营的效率大大提高。那么市面上的数据分析软件那么多,哪些才是被大众所认可的呢?下面整理了一份2021最热门的数…查看详情
- plc零基础自学入门
plc梯形图零基础自学入门?2.学习使用PLC编程语言,如ladderdiagram、ST、SFC等,掌握每个指令的写法,并通过实践来运用它们。 3.根据实际需求,利用PLC梯形图编写出完整的控制程序,并使用调试工具,进行模拟检验和参…查看详情
- 没有经营地址可以注册公司吗
在中国,公司的注册需要符合一定的条件,例如注册资金、经营范围、公司类型等等。其中,经营地址也是一个非常重要的因素,因为它与公司的经营和管理密切相关。在很多人的观念中,没有正规的经营地址就不可能注册公司,但这种观念其实是有些误区的。接下来…查看详情
- 注册一个商标需要什么材料和条件?
如今很多企业都较以前更注重商标的影响力,商标也越来越重要。各行各业的企业都纷纷开始注册商标,但很多企业却并不知道注册一个商标需要什么材料和条件,导致一次次地去准备申请材料,浪费许多时间。图片来源于网络 ● 注册一个商标需要什么条件? 1.…查看详情
- 何为知识产权?文中将告诉你它的重要性!
随着互联网的发展,越来越多的的企业、权利人重视知识产权所带来的效益及保护的意义。那么,何为知识产权?知识产权保护的内容有哪些?下面由小万来给大家介绍一下知识产权相关内容。图片来源于网络 何为知识产权?知识产权,也称其为“知识所属权”,指“权…查看详情
- 个人怎么注册一个小公司?
作为一个普通人,想要注册一家小公司,并不是一件非常复杂的事情,但是需要了解一些基本流程和法律规定。下面我将详细描述个人如何注册一家小公司,并提供一些实用的建议和注意事项。 一、确定公司类型和名称 在注册公司之前,首先需要确定公司的类…查看详情
- 2020年做跨境电商有哪些优势?
伴随着互联网逐步普,支付体系的不断完善和物流运输的便捷化,跨境电商在中国热火朝天地进行,中国消费者撩起了“海上淘”的新高潮。跨境电商具备世界性、无形性及时性等特征。今天,主要为大家分析,跨境电商有哪些优势。图片来源于网络一、信息传递的方便快…查看详情
- 建筑施工管理软件有哪些?这几款功能强大
建筑施工的时候,所涉及到的方面是非常多的,对于管理人员来说,如果有哪些疏忽,就会造成十分严重的后果,而现在就可以也使用建筑施工管理软件,来做好风险的管控,减少失误的情况,那么建筑施工管理软件有哪些呢?这几款功能强大,一起来了解吧…查看详情
- oracle中什么是存储过程
Oracle存储过程?定义:存储过程(StoredProcedure)是一组为了完成特定功能的SQL语句集,经编译后存储在数据库中。用户通过指定存储过程的名字并给出参数(如果该存储过程带有参数)来执行它。 存储过程是数据库中的一个重要对象…查看详情
- 为何那么多人抢注域名?抢注域名有什么意义?
很多人不知道抢注域名是什么意思?为什么这么多人都急于注册域名?抢注域名如今已成为一种职业。许多公司已经从当初一个小公司变成了一个大公司。我们今天就来说一说什么是抢注域名?为什么那么多人关注抢注域名?读完这篇文章后,你会对域名有一个全新的认识…查看详情
- 公司被起诉能不能注销?
现在的民事官司越来越多了,其中关于公司之间产生的纠纷也不少,公司和公司之间发生矛盾是很常见的事情,不少公司都会因为无法私下调解而选择“告上公堂”。不过在走法律流程的时候,也有很多公司都遇到了那种在诉讼阶段将公司注销的被告,这时候原告方就…查看详情
- 如何设置QQ自定义头像
QQ自定义头像可以让我们在QQ聊天或者其他QQ相关功能中展示出自己的个性,吸引他人注意,提升自我表达力,真正达到“一花一世界,一叶一菩提”的境界。下面,就和小编一起来详细了解一下如何设置QQ自定义头像吧。 一、选择自己喜欢的头像图片 …查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






