服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

正确的使用数据,“正确”到底是什么意思?

2020-12-28 11:31:33 阅读(179 评论(0)

不知道大家有没有听说过,数据科学现在特别疯狂,到处都是课程、博客、培训机构。每次看到这些东西,我发现很多都集中在几个特定的算法上。当然,理解逻辑回归和深度学习是很酷的,但一旦你开始真正使用实际数据来做一些事情,你会发现还有其他重要的事情,甚至更重要。我不会说这些课程不好。我在大学里教了很多年机器学习。这些课程总是专注于几种特定的算法。您学习了支持向量机,高斯混合模型,k-means聚类,等等,但是在做研究所论文的时候,你学会了如何正确使用数据吗?那么,“正确”到底是什么意思呢?不是用结果来评价吗?不是只要我预测准确率高就完成了吗?当然,这是对的,但关键是要确保你在特征数据方面取得了良好的表现。就像我在别处写的,当你看到训练数据的结果时,你很容易被愚弄,认为你的方法非常有效。因此,这里有几个主要的想法,你在书中很难找到。1、评估是关键数据分析/机器学习/数据科学(或你想叫什么)的主要目的是构建一个能在未来数据中表现良好的系统。由于监督学习和非监督学习的区别,很难理解这意味着什么。但在任何情况下,你都会收集一个基于这个数据集的数据集来设计你的方法。但最终,您需要将您的方法应用到未来的数据中,您希望该方法给出的结果与您使用原始数据集的结果相似。初学者经常犯错误,只看可用数据的表现,假设未来数据也可以work。不幸的是,这只是少数情况。现在,我们只讨论监督学习,任务是基于你的输入来预测一些输出,比如分类垃圾邮件。假如你只考虑训练数据,机器只要记住一切,就能得到完美的预测,这很容易。其实对人来说也比较常见。当你学习外语并记住单词时,你会在测试时打乱所有单词的顺序。否则,你的大脑只记住基于顺序的单词。机器有大量的存储能力,很容易记住大量的数据。这将导致过拟合,缺乏泛化。因此,正确的方法是划分你的数据集,模拟你已经有了未来的数据,在一部分训练,在另一部分预测。通常训练集比较大,这个过程会重复几次,得到几个结果,看看我们的方法是否稳定。这一过程称为交叉验证。图1。模拟未来数据。在分割了数据集之后,仍然会有问题,特别是数据是非静态的,也就是说,数据的潜在分布随时会发生变化,这在实际场景中经常发生,销售数据在1月和6月会有很大的不同。或者,数据点之间会有很大的相关性,这意味着如果你知道一个数据点,你也知道很多其他的数据点。例如,如果你使用股票的价格,你通常在相邻的两天内不会跳得很厉害,所以在随机分割训练集和测试集时,可能会导致训练数据集与测试数据集的高度相关。但当这些发生时,你会得到一个过于优化的数字,你的方法在未来的数据中不会工作得很好。在最糟糕的情况下,你终于说服人们试试你的东西,结果不工作,所以学习如何正确评估是关键!2、学习一种新的特征提取方法是非常令人兴奋的,但事实是,大多数复杂的方法实际上都是相似的,真正的区别在于原始数据是如何转化为特征来学习的。现在的学习方法很强,很容易处理成千上万的特征,成千上万的数据,但最终,这些方法都是愚蠢的。尤其是线性模型(如逻辑回归、线性支持向量机),基本上就像你的计算器。这些方法非常适合处理具有明确信息和使用足够数据的特征,但如果没有足够的信息或输入特征的线性组合,这些方法将无能为力。你可以大大减少数据量,你需要找到正确的特征,假设,如果你删除了所有的特征,就没有什么可学的了,对吧?这就是特征提取有多强大!这意味着两件事:首先,你应该确保你精通类似的方法之一,但你可以一直使用它。所以,你不需要逻辑回归和线性SVMS,你可以选择一个。这也包括了解哪些方法是相似的,这些模型的关键点在哪里。深度学习有点不同,但线性模型大致相同,但训练时间、方案稀疏等可能不同,但对于大多数案例,应该能够得到相同的预测。第二,你需要学习所有的特色工程。不幸的是,这是艺术,书基本上不会说,因为没有理论上的东西。归一化很有用。有时,特征需要对数。有时你可以排除一些自由,也就是说,一种去除数据可以改变的方式,这与预测任务无关,你可以显著减少训练中的数据量。有时很容易发现这些变化。比如你在做手写字符识别,很明显颜色没有鸟用,你已经有了前景和背景。我知道书中描述方法的时候经常会说得很厉害。只要你把数据扔进去,剩下的就给你做。从理论上讲,使用无限数据是可以的,但实际情况是数据和时间是有限的。显然,找到信息量的特征是本质。3、在大数据时代,选择模型需要最多的时间,而不是数据集的大小。没有必要过分强调这些事情。大多数数据集可以完全存储在系统内存中。你的方法不会花太多时间运行数据。但您将花费大量时间进行特征提取、交叉验证、比较不同的特征提取方案和参数。对于模型选择,您经历了许多参数组合,复制相同的数据,同时运行,并评估结果。这个问题是组合的探索。例如,您只有两个参数,训练模型只需1分钟,然后在保留的数据集中评估性能。如果你对每个参数有5个候选值,你可以做50%的折扣交叉验证,这意味着你需要跑125次才能找到哪组参数最好,你需要等1个小时,而不是1分钟。好消息是并行化,因为训练完全不相关,可以同时跑。有一个坏消息主要针对大数据的学生。因为所有这些都意味着对实现可扩展性的复杂需求很少,在大多数情况下,内存中并行运行非分布式算法也很有帮助。最后,大量的数据并不意味着需要这么多的数据,而是背后学习问题的复杂性。如果你能用一个简单的模型来完成它,你就不需要那么多的数据。在这种情况下,可以随机选择数据子集。正如我上面所说,有时,正确的特征表明它可以极大地帮助减少所需的数据数量。综上所述,知道如何正确评估是很有帮助的,可以降低未来无法使用数据的风险。提取正确的特征可能是最有效的。最后,并非所有时候都需要大数据,尽管分布式计算可以帮助我们减少训练时间。

内容来源:AI公园,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

PPT制作软件推荐,告别PPT用什么软件制作的疑惑

现在社会,许多大学生和上班族对PPT的制作并不陌生,在平时的工作和学习生活中都会用到PPT,PPT用什么软件制作呢?一起看看我为大家整理的PPT制作软件推荐吧。 1.OPlus OPlus是微软官方模板网站。涵盖了PPT模板…查看详情

自己在家做电商需要些什么设备

  电商是近年来非常火热的行业,越来越多的人开始选择在家做电商。如果你也想在家做电商,那么需要以下东西:  一、基础设施  基础设施是开展电商的第一个环节,包括了硬件设备和软件环境。对于硬件设备而言,一般需要一台电脑、一台打印机、一个摄像头…查看详情

农产品要商品化、品牌化、电商化,互联网推广是什么角色?

农产品滞销,农民“丰产不丰收”是常见社会现象,也是国家农业部高度重视并极力解决的问题。互联网推广是什么?是渠道,也是销售。2020年上半年的网络数据统计显示,“互联网+农产品”能够有效帮助农产品销售,在一定程度上解决农产品滞销问题,为农户解…查看详情

【小程序管理系统】后端精细化让你从起点就有优势

小程序分为企业版和个人版,两者的区别在于,个人版不支持微信认证,不能对外发布只能作为测试使用;企业版需要以个体户、企业或组织机构的营业执照进行注册。小程序的开发涉及到前端和后端,后端是指小程序管理系统,负责上传产品和内容,前端负责小程序的页…查看详情

选择网站开发建设公司的正确姿势

企业官网对于企业的营销推广非常重要,它企业品牌形象和企业文化展示的重要渠道。一个企业如果没有自己的官方企业网站,就很难向客户传递自己的品牌理念、产品信息,无法让客户更清晰的认识自己,所以很多中小企业都会选择网站开发建设公司来为自己建设官网。…查看详情

字符串是什么意思 哪些属于字符串

相信很多没用接触到计算的朋友都不知道字符串是什么意思,在计算机技术领域比较常用,在编程代码这块也比较常见,下面万商云集小编给大家来详细介绍一下字符串的相关常识。  什么是Python中的字符串?  我们许多熟悉C,C++等编程语言的人都会得…查看详情

网络测速软件有哪些 网络测速app推荐

现在很多的用户都比较关心自己的网速问题,现在市面上的网络测速软件也是有很多的,下面万商云集小编给大家来详细介绍一下网络测速软件有哪些 网络测速app推荐这方面的内容。希望能帮助到大家。  1.speedtest  测网速speedtest…查看详情

erp解决方案能给中小企业带来什么?

erp解决方案有什么具体的功能?它能够帮助中小企业带来什么?图片来源网络erp解决方案可以从每个部门、每个业务流程中获取信息,打破部门之间的信息壁垒,将企业发展所需的信息高度集成。生产、销售、市场、分销、财务、人力资源、项目管理、存货管理、…查看详情

eclipse下载教程 eclipse如何下载

macbookpro怎么下载eclipse?在macbookpro上下载eclipse的步骤如下: 1.打开浏览器,进入eclipse官网; 2.在“DownloadPackages”选项中选择需要的Eclipse版本; 3.选择操作…查看详情

淘宝营销活动有哪些类型?3种常见营销类型

淘宝活动是卖家网店流量的重要来源之一,无论是收费还是免费,网店一旦参加,都将获得巨大的流量,那么常见的淘宝营销活动有哪些类型?综合看来,淘宝网的活动非常多,常见可分为平台活动、渠道活动和类目活动三种类型。 1.平台活动 淘宝网(淘宝集市、…查看详情

linux系统和win系统有什么区别

Linux系统和Windows系统是两种广泛使用的操作系统,它们具有许多区别。以下是关于这两个系统之间的一些主要区别的简要介绍。1. 开源 vs 闭源:Linux是开源软件,意味着它的源代码对用户开放,可以由任何人进行修改和分发。相比之下,…查看详情

知识产权如何申请 2023年知识产权申请流程

  知识产权涵盖的范围很广,包括了专利权、版权等,而专利权包括发明专利权、实用新型专利权、外观专利等,版权包括软件著作权、文字版权、音乐版权等,还有商标权.下面小编就给大家来详细介绍一下知识产权如何申请 2023年知识产权申请流程这一块…查看详情

商业网站推广的方法有哪些?

  优质答案(1)  网站推广传统的方法:搜索引擎、微信朋友圈等,这些方法属于免费推广的范畴,但关于电商方面的推广确没有涉及,下面来仔细聊聊关于电商推广的一些方法  一、搜索  搜索引流是我们平时最常见的一种。买家不论在哪个平台购物,首先第…查看详情

做小程序代理是商机也是挑战

小程序刚出来的时候,嗅到这股潮流的人早就在这个领域赚到钱了,小程序至今也有2年时间了,没有哪个互联网产品能够这么快风靡起来,不论是商家还是用户都觉得小程序非常实用,不仅不站手机内存,可以节省大量储存空间。 图片来源于网络站在风口上,就能开启…查看详情

会员卡管理软件助力经营,这4款帮商家get营销诀窍

无论是线下经营店铺还是线上虚拟商铺,越来越多的商家重视店面会员机制所带来的经营增值效应,而随着经营规模的不断扩大,经营者对于会员及会员卡的管理工作量也在增加,此时就需要借助专业的会员卡管理软件来助力经营,今天就介绍4款能够帮助商…查看详情

最新文章