正确的使用数据,“正确”到底是什么意思?
2020-12-28 11:31:33 阅读(187) 评论(0)
不知道大家有没有听说过,数据科学现在特别疯狂,到处都是课程、博客、培训机构。每次看到这些东西,我发现很多都集中在几个特定的算法上。当然,理解逻辑回归和深度学习是很酷的,但一旦你开始真正使用实际数据来做一些事情,你会发现还有其他重要的事情,甚至更重要。我不会说这些课程不好。我在大学里教了很多年机器学习。这些课程总是专注于几种特定的算法。您学习了支持向量机,高斯混合模型,k-means聚类,等等,但是在做研究所论文的时候,你学会了如何正确使用数据吗?那么,“正确”到底是什么意思呢?不是用结果来评价吗?不是只要我预测准确率高就完成了吗?当然,这是对的,但关键是要确保你在特征数据方面取得了良好的表现。就像我在别处写的,当你看到训练数据的结果时,你很容易被愚弄,认为你的方法非常有效。因此,这里有几个主要的想法,你在书中很难找到。1、评估是关键数据分析/机器学习/数据科学(或你想叫什么)的主要目的是构建一个能在未来数据中表现良好的系统。由于监督学习和非监督学习的区别,很难理解这意味着什么。但在任何情况下,你都会收集一个基于这个数据集的数据集来设计你的方法。但最终,您需要将您的方法应用到未来的数据中,您希望该方法给出的结果与您使用原始数据集的结果相似。初学者经常犯错误,只看可用数据的表现,假设未来数据也可以work。不幸的是,这只是少数情况。现在,我们只讨论监督学习,任务是基于你的输入来预测一些输出,比如分类垃圾邮件。假如你只考虑训练数据,机器只要记住一切,就能得到完美的预测,这很容易。其实对人来说也比较常见。当你学习外语并记住单词时,你会在测试时打乱所有单词的顺序。否则,你的大脑只记住基于顺序的单词。机器有大量的存储能力,很容易记住大量的数据。这将导致过拟合,缺乏泛化。因此,正确的方法是划分你的数据集,模拟你已经有了未来的数据,在一部分训练,在另一部分预测。通常训练集比较大,这个过程会重复几次,得到几个结果,看看我们的方法是否稳定。这一过程称为交叉验证。图1。模拟未来数据。在分割了数据集之后,仍然会有问题,特别是数据是非静态的,也就是说,数据的潜在分布随时会发生变化,这在实际场景中经常发生,销售数据在1月和6月会有很大的不同。或者,数据点之间会有很大的相关性,这意味着如果你知道一个数据点,你也知道很多其他的数据点。例如,如果你使用股票的价格,你通常在相邻的两天内不会跳得很厉害,所以在随机分割训练集和测试集时,可能会导致训练数据集与测试数据集的高度相关。但当这些发生时,你会得到一个过于优化的数字,你的方法在未来的数据中不会工作得很好。在最糟糕的情况下,你终于说服人们试试你的东西,结果不工作,所以学习如何正确评估是关键!2、学习一种新的特征提取方法是非常令人兴奋的,但事实是,大多数复杂的方法实际上都是相似的,真正的区别在于原始数据是如何转化为特征来学习的。现在的学习方法很强,很容易处理成千上万的特征,成千上万的数据,但最终,这些方法都是愚蠢的。尤其是线性模型(如逻辑回归、线性支持向量机),基本上就像你的计算器。这些方法非常适合处理具有明确信息和使用足够数据的特征,但如果没有足够的信息或输入特征的线性组合,这些方法将无能为力。你可以大大减少数据量,你需要找到正确的特征,假设,如果你删除了所有的特征,就没有什么可学的了,对吧?这就是特征提取有多强大!这意味着两件事:首先,你应该确保你精通类似的方法之一,但你可以一直使用它。所以,你不需要逻辑回归和线性SVMS,你可以选择一个。这也包括了解哪些方法是相似的,这些模型的关键点在哪里。深度学习有点不同,但线性模型大致相同,但训练时间、方案稀疏等可能不同,但对于大多数案例,应该能够得到相同的预测。第二,你需要学习所有的特色工程。不幸的是,这是艺术,书基本上不会说,因为没有理论上的东西。归一化很有用。有时,特征需要对数。有时你可以排除一些自由,也就是说,一种去除数据可以改变的方式,这与预测任务无关,你可以显著减少训练中的数据量。有时很容易发现这些变化。比如你在做手写字符识别,很明显颜色没有鸟用,你已经有了前景和背景。我知道书中描述方法的时候经常会说得很厉害。只要你把数据扔进去,剩下的就给你做。从理论上讲,使用无限数据是可以的,但实际情况是数据和时间是有限的。显然,找到信息量的特征是本质。3、在大数据时代,选择模型需要最多的时间,而不是数据集的大小。没有必要过分强调这些事情。大多数数据集可以完全存储在系统内存中。你的方法不会花太多时间运行数据。但您将花费大量时间进行特征提取、交叉验证、比较不同的特征提取方案和参数。对于模型选择,您经历了许多参数组合,复制相同的数据,同时运行,并评估结果。这个问题是组合的探索。例如,您只有两个参数,训练模型只需1分钟,然后在保留的数据集中评估性能。如果你对每个参数有5个候选值,你可以做50%的折扣交叉验证,这意味着你需要跑125次才能找到哪组参数最好,你需要等1个小时,而不是1分钟。好消息是并行化,因为训练完全不相关,可以同时跑。有一个坏消息主要针对大数据的学生。因为所有这些都意味着对实现可扩展性的复杂需求很少,在大多数情况下,内存中并行运行非分布式算法也很有帮助。最后,大量的数据并不意味着需要这么多的数据,而是背后学习问题的复杂性。如果你能用一个简单的模型来完成它,你就不需要那么多的数据。在这种情况下,可以随机选择数据子集。正如我上面所说,有时,正确的特征表明它可以极大地帮助减少所需的数据数量。综上所述,知道如何正确评估是很有帮助的,可以降低未来无法使用数据的风险。提取正确的特征可能是最有效的。最后,并非所有时候都需要大数据,尽管分布式计算可以帮助我们减少训练时间。
推荐阅读
- 小程序怎么在微信页面显示
小程序不显示不出来怎么办? 1、首先打开微信,点击进入页面右下角的“我”后选择“设置”选项。 2、然后在设置中找到“通用”选项。 3、进入“通用”页面后,点击“发现页管理”选项。 4、然后即可看到页面中的小程序右侧开关是关闭状态…查看详情
- 写日记的软件哪个好用 写日记的软件推荐
有的人从小的时候就养成了一个爱写日记的习惯,一直到成年之后,这个习惯都一直存在,那么,对于现在互联网的时代,可以直接在软件上面写,写日记的软件都有哪些呢,相信很多人都还不知道。 1、纸言日记 是一款可以记载许多事情的一种ap…查看详情
- 学习编程的软件有哪些 学习编程的软件排行榜
现在很多的人都喜欢自己喜欢学习编程,其实现在编程是很不错的一个行业,市面上也有很多的编程学习软件,下面小编就给大家来i详细介绍一下学习编程的软件有哪些 学习编程的软件排行榜这一块的内容,希望能帮助到大家。 学习编程的软件有哪些 …查看详情
- 转让专利权的程序是什么 转让专利权的流程
只有专利转让人和受让人双方取得一致的意见之后才能有效地开展之后的转让相关工作。在转让合同中,对于双方的利益都应该有明确地文字内容,下面万商云集小编就给大家介绍下 转让专利权的流程。希望能帮助到大家。 转让专利权的流程 第一步:寻找专…查看详情
- 电视机品牌排行榜前十名 目前口碑最好的电视机
看电视已经是大众茶余饭后的必备电器之一了,它为大众生活带来了歌声与欢乐,带来多少喜怒哀乐。那么对于这么必不可少的家电,市面上林林总总的品牌如此之多,应该怎么选择电视机品牌呢,今天小编就给搜集了电视机品牌排行榜前十名供大家参考了:…查看详情
- 淘宝发布宝贝描述怎么写?需要避免哪些误区?
淘宝宝贝描述是影响买家是否购买的一个重要因素,是将点击率转化为成交率的关键,那么淘宝发布宝贝描述怎么写? 如何正确填写宝贝描述? 淘宝网的商品描述最大支持1.25万字,足够用来列出商品的详细介绍和说明。商品的描述一般由以下几部分内容组成。 …查看详情
- 企业财务软件哪个好用 企业财务软件排行榜
现在企业的财务管理是非常的重要的,很多的企业其实不太重视财务的管理,下面小编就给大家来详细介绍一下企业财务软件哪个好用 企业财务软件排行榜这一块的相关内容,希望能帮助到大家, 企业财务软件排行榜 1、《财务笔记》 它能帮助大家…查看详情
- 300m宽带用什么路由器
对于300M以上的宽带接入,需要选择一台性能更高、信号覆盖更广、信号稳定的路由器。以下为您提供路由器的选择要点和建议。 一、选择路由器的重点 1. 硬件配置:路由器的硬件配置表现在处理器、存储器和物理接口等方面。处理器直接影响设备…查看详情
- prefetch 是什么文件夹
prefetch和preload的区别?区别就是两者意思是不一样,具体的不同如下 prefetch中文意思是预读;数据预取;预存取;预载;预读取文件夹; preload中文意思是v./n. 预载;预装; 例句 Pleaseen…查看详情
- 中国新零售试错,或许将催生更符合中国零售市场的新模式
中国的新零售模式目前仍然处于试错阶段,但是这些试错可能催生出更符合中国零售市场的新模式。近日,有日本的相关人士指出,在中国以阿里巴巴和京东为代表的电子商务企业已经让传统的商超面临更艰难的生存环境。在2016年,线上线下一体发展的新零售概念被…查看详情
- 好用的查重软件有哪些 论文查重软件排行榜
现在不管是大学毕业生论文查重或者是很多的科研项目大家都会去查论文的重复率问题,下面小编就给大家来详细介绍一下好用的查重软件有哪些 论文查重软件排行榜这一块的相关内容,希望能帮助到大家。 论文查重软件排行榜 1、《迅捷论文查重》 …查看详情
- 靠谱的工程档案管理软件,带来工程成本降低
工程档案管理的必要性主要在于能够帮助工程承接方进行细致的成本核算与管控,减少在工程落实过程当中的步骤遗漏,记录工程推进的每一个细节流程,并在工程结束之后帮助进行工程复盘,从而累积科学的工程实施经验。今天就来推荐几个靠谱的工程档案…查看详情
- 好做又赚钱的小吃店有哪些?
高新科技的发展,我们身边最常见的小吃店也有了许多加盟店铺,它们不在是简简单单的小吃店,而是可以作为一个代表性的门面。今天就让小编带大家一起了解一下,好做又赚钱的小吃店有哪些。 1、猪红汤小吃店 美味的猪红汤吃过一次你就会有再吃的欲望,猪红汤…查看详情
- 2021最好用的会计软件免费大盘点
会计软件是为会计进行指导以及对财务进行管理的软件,它包含有许多功能,在它的帮助下,会计工作将会变得越来越轻松,不过有哪些免费的会计软件给我们用呢,今天就来进行会计软件免费大盘点。 1.用友会计软件 用友畅捷通进销存管理软件,涵盖库存管理,销…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00















































注册有好礼



