服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

正确的使用数据,“正确”到底是什么意思?

2020-12-28 11:31:33 阅读(189 评论(0)

不知道大家有没有听说过,数据科学现在特别疯狂,到处都是课程、博客、培训机构。每次看到这些东西,我发现很多都集中在几个特定的算法上。当然,理解逻辑回归和深度学习是很酷的,但一旦你开始真正使用实际数据来做一些事情,你会发现还有其他重要的事情,甚至更重要。我不会说这些课程不好。我在大学里教了很多年机器学习。这些课程总是专注于几种特定的算法。您学习了支持向量机,高斯混合模型,k-means聚类,等等,但是在做研究所论文的时候,你学会了如何正确使用数据吗?那么,“正确”到底是什么意思呢?不是用结果来评价吗?不是只要我预测准确率高就完成了吗?当然,这是对的,但关键是要确保你在特征数据方面取得了良好的表现。就像我在别处写的,当你看到训练数据的结果时,你很容易被愚弄,认为你的方法非常有效。因此,这里有几个主要的想法,你在书中很难找到。1、评估是关键数据分析/机器学习/数据科学(或你想叫什么)的主要目的是构建一个能在未来数据中表现良好的系统。由于监督学习和非监督学习的区别,很难理解这意味着什么。但在任何情况下,你都会收集一个基于这个数据集的数据集来设计你的方法。但最终,您需要将您的方法应用到未来的数据中,您希望该方法给出的结果与您使用原始数据集的结果相似。初学者经常犯错误,只看可用数据的表现,假设未来数据也可以work。不幸的是,这只是少数情况。现在,我们只讨论监督学习,任务是基于你的输入来预测一些输出,比如分类垃圾邮件。假如你只考虑训练数据,机器只要记住一切,就能得到完美的预测,这很容易。其实对人来说也比较常见。当你学习外语并记住单词时,你会在测试时打乱所有单词的顺序。否则,你的大脑只记住基于顺序的单词。机器有大量的存储能力,很容易记住大量的数据。这将导致过拟合,缺乏泛化。因此,正确的方法是划分你的数据集,模拟你已经有了未来的数据,在一部分训练,在另一部分预测。通常训练集比较大,这个过程会重复几次,得到几个结果,看看我们的方法是否稳定。这一过程称为交叉验证。图1。模拟未来数据。在分割了数据集之后,仍然会有问题,特别是数据是非静态的,也就是说,数据的潜在分布随时会发生变化,这在实际场景中经常发生,销售数据在1月和6月会有很大的不同。或者,数据点之间会有很大的相关性,这意味着如果你知道一个数据点,你也知道很多其他的数据点。例如,如果你使用股票的价格,你通常在相邻的两天内不会跳得很厉害,所以在随机分割训练集和测试集时,可能会导致训练数据集与测试数据集的高度相关。但当这些发生时,你会得到一个过于优化的数字,你的方法在未来的数据中不会工作得很好。在最糟糕的情况下,你终于说服人们试试你的东西,结果不工作,所以学习如何正确评估是关键!2、学习一种新的特征提取方法是非常令人兴奋的,但事实是,大多数复杂的方法实际上都是相似的,真正的区别在于原始数据是如何转化为特征来学习的。现在的学习方法很强,很容易处理成千上万的特征,成千上万的数据,但最终,这些方法都是愚蠢的。尤其是线性模型(如逻辑回归、线性支持向量机),基本上就像你的计算器。这些方法非常适合处理具有明确信息和使用足够数据的特征,但如果没有足够的信息或输入特征的线性组合,这些方法将无能为力。你可以大大减少数据量,你需要找到正确的特征,假设,如果你删除了所有的特征,就没有什么可学的了,对吧?这就是特征提取有多强大!这意味着两件事:首先,你应该确保你精通类似的方法之一,但你可以一直使用它。所以,你不需要逻辑回归和线性SVMS,你可以选择一个。这也包括了解哪些方法是相似的,这些模型的关键点在哪里。深度学习有点不同,但线性模型大致相同,但训练时间、方案稀疏等可能不同,但对于大多数案例,应该能够得到相同的预测。第二,你需要学习所有的特色工程。不幸的是,这是艺术,书基本上不会说,因为没有理论上的东西。归一化很有用。有时,特征需要对数。有时你可以排除一些自由,也就是说,一种去除数据可以改变的方式,这与预测任务无关,你可以显著减少训练中的数据量。有时很容易发现这些变化。比如你在做手写字符识别,很明显颜色没有鸟用,你已经有了前景和背景。我知道书中描述方法的时候经常会说得很厉害。只要你把数据扔进去,剩下的就给你做。从理论上讲,使用无限数据是可以的,但实际情况是数据和时间是有限的。显然,找到信息量的特征是本质。3、在大数据时代,选择模型需要最多的时间,而不是数据集的大小。没有必要过分强调这些事情。大多数数据集可以完全存储在系统内存中。你的方法不会花太多时间运行数据。但您将花费大量时间进行特征提取、交叉验证、比较不同的特征提取方案和参数。对于模型选择,您经历了许多参数组合,复制相同的数据,同时运行,并评估结果。这个问题是组合的探索。例如,您只有两个参数,训练模型只需1分钟,然后在保留的数据集中评估性能。如果你对每个参数有5个候选值,你可以做50%的折扣交叉验证,这意味着你需要跑125次才能找到哪组参数最好,你需要等1个小时,而不是1分钟。好消息是并行化,因为训练完全不相关,可以同时跑。有一个坏消息主要针对大数据的学生。因为所有这些都意味着对实现可扩展性的复杂需求很少,在大多数情况下,内存中并行运行非分布式算法也很有帮助。最后,大量的数据并不意味着需要这么多的数据,而是背后学习问题的复杂性。如果你能用一个简单的模型来完成它,你就不需要那么多的数据。在这种情况下,可以随机选择数据子集。正如我上面所说,有时,正确的特征表明它可以极大地帮助减少所需的数据数量。综上所述,知道如何正确评估是很有帮助的,可以降低未来无法使用数据的风险。提取正确的特征可能是最有效的。最后,并非所有时候都需要大数据,尽管分布式计算可以帮助我们减少训练时间。

内容来源:AI公园,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

运营小白必懂的网站运营基础常识

在当下互联网形势下,网站运营得好不好真的至关重要,这是很多企业老板都知道的事实,网站运营得好,网站排名越靠前,就有更大的机会被用户看到,感兴趣的用户才有可能点进去了解网站的详情;反之,网站运营得不好,排名就老是上不去,不能被广大用户看到,网…查看详情

现在做推广的新渠道有哪些

  相信现在有很多的中小企业都为了流量发愁,现在很多的企业都在寻找新的流量渠道,下面万商云集*给大家来详细介绍一下现在做推广的新渠道有哪些,希望下面介绍的这些渠道能帮助到中小企业获客。.现在做推广的新渠道有哪些  01巨量引擎  巨量引擎是…查看详情

想要专业的工程造价软件,可以了解以下的工程造价软件排行榜

从事工程管理方面的人对于工程造价肯定也是比较熟悉了,在平日的工作过程当中,工程造价软件的选择也是一大难题,如果想要选择一个专业的工程造价软件的话,可以看一下工程造价软件排行榜。 1、广联达 广联达算是一家数字建筑平台的服务…查看详情

卫生巾品牌排行榜前十

以下是关于卫生巾品牌排行榜前十的相关信息: 1.姨妈帮(Always):作为全球领先的卫生巾品牌之一,Always以其舒适度和安全性而闻名。他们提供多种类型的卫生巾,以满足女性在不同时期和需求下的要求。 2.卫洲(Whisper):卫洲是宝…查看详情

linux虚拟机安装教程win10

linux操作系统虚拟机安装教程?首先打开VMwareWorkstation软件,选择【创建新虚拟机】后,我们会进入新建虚拟机向导这个界面,在这个界面中我们需要选择安装来源 2、接着就是选择Linux操作系统,且版本选择CentOS6…查看详情

orientation是什么意思?

orientation用什么介词?1/orientation释义: n.方向;定向;适应;情况介绍 2/例句: Projectmembe1houldbeclearabouttheirorientatio1throughoutthewo…查看详情

使用手机玩页游专用浏览器,畅享流畅的游戏体验

玩手机游戏可以给枯燥的生活增加趣味性,也能够放松身心。但是在玩游戏的时候难免会占有内存,如果经常出现卡顿,更会影响到玩游戏的心情,那么不妨选择使用手机玩页游专用浏览器,这样能够让游戏变得更为流畅,减少卡顿问题,下面就为大家介绍几…查看详情

jsp技术介绍

什么是jsp?JSP与PHP、ASP、ASP.NET等语言类似,运行在服务端的语言。JSP(全称JavaServerPages)是由SunMicrosystems公司倡导和许多公司参与共同创建的一种使软件开发者可以响应客户端请求,而动态生成…查看详情

好看的赌石类小说有哪些 赌石类小说排行榜

  现在在小说界流行着一种比较有特色的小说就是赌石类小说,主要是这类小说充满着各种悬念,而且这些小说非常的经典,下面*就给大家来详细介绍一下好看的赌石类小说有哪些 赌石类小说排行榜这一块的相关内容,希望下面的信息能帮助到大家。  赌石类…查看详情

盘点好用的装修设计软件,小白也能亲手设计自己理想的家

经济发展迅速,从小破屋变成小洋房,发生翻天覆地的变化,装修房子成了必要之事。装修设计软件哪个好用? 1、土巴兔装修 国内代表性的互联网家装软件/平台,为广大业主提供一站式家装解决方案,可提供装修设计、先装修后支付、装修分期、…查看详情

拼多多获农业部表彰,未来将孵化500个农业供应链品牌

2019年11月15日,由农业部主办的第十七届中国国际农产品交易会在南昌举行。该展会在国内是规模最大、级别最高的农业展会,展会一共有八千多家家企业参与,其中有拼多多、中粮集团等知名企业。此次农业展览会拼多多因为在农民丰收节期间对农业做出了贡…查看详情

域名注册商查询 | 注意查询域名信息,防止域名被贪

域名注册商查询?域名信息查询?什么时候我们才需要进行域名相关信息查询呢?其实当在域名注册服务商或代理商处,成功注册域名后就应该进行查询,如此才能避免以后突然出现域名无法使用或被收回的情况。 现在很多域名注册平台都提供了域名注册商查询功能,如…查看详情

提高客流量 餐饮短信营销可以这么做

餐饮业利润大市场需求高,但是随之而来的就是竞争激烈、同质化严重。餐饮短信营销有着成本低覆盖广阅读率高的特点,如果能够利用好,无疑将帮助餐饮业中提高客户流量,促进利润增长。 图片来源于网络短信可以应用在以下三个方面:1.活动促销最新动态:发布…查看详情

四款测温软件24小时守护宝宝,1分钟快速测温

现在有很多比较先进的东西,测温这方面设置的也越来越先进,不需要温度计就可以测量温度,对于小宝宝来说是一种*,那么,我们需要提前了解一下测温软件都有什么这个问题。 1、24小时不断监控 24小时不断监控小孩体温,2秒左右收集一…查看详情

版权登记查询方法及步骤是怎样的?

随着大家对知识产权意识的提高,现今许多原创作品都会进行申请版权登记,以此来维护原创作者自己的专享权益。那么,在版权登记前、版权登记后,都会涉及到一个问题,那就是得知该作品或该类作品是否已经成功进行版权登记。所以,今天小万将为大家带来关于版权…查看详情

最新文章