督导式机器学习的使用现状分析
2020-12-28 15:39:11 阅读(148) 评论(0)
随着我们进入2017年下半年,是时候看看使用数据科学和机器学习的公司面临的共同挑战了。假设你的公司已经大规模收集数据,需要使用分析工具,你已经意识到数据科学可以发挥重要作用(包括改善决策或企业管理、增加收入等),并优先考虑。对收集数据和识别感兴趣的问题并非小事,但假设你在这些方面取得了良好的开端,那么还有哪些挑战呢?数据科学是一个广泛的话题,所以我想解释一下:本文主要讨论了监督机器学习的使用情况。假设你有一个处理数据摄取和集成的团队,以及一个维护数据平台(“真相来源”)的团队,新的数据来源不断出现,领域专家负责找到这些数据来源。此外,由于我们主要讨论监督学习,缺乏培训数据仍然是机器学习项目的主要瓶颈,这并不奇怪。有一些很好的研究项目和工具可以快速创建庞大的训练数据集(或加强现有的训练数据集)。斯坦福大学的研究人员已经证明,弱监督和数据编程可以用于训练模型,而无需使用大量手工标记的训练数据。深度学习研究人员对生成模型的初步研究在计算机视觉等无监督学习领域取得了令人满意的成果。在机器学习的背景下,评估数据的另一种有用方法是“思考特性而不是算法”。友情提示:数据扩展可以改善你现有的模型,在某些情况下,甚至可以帮助缓解冷启动问题。大多数数据科学家可能使用开源数据或通过第三方数据提供商扩展他们的现有数据集,但我发现数据扩展有时会被忽略。人们认为获取外部数据、标准化和使用这些数据进行实验没有开发模型和算法那么有吸引力。许多用例的目标是从原型到产品,使数据科学项目产品化。为使这一过程更加高效,最近出现了一个新的工作角色——机器学习工程师。还有一套新工具可以促进从原型到产品的转变,帮助跟踪和分析与产品相关的背景和元数据。机器学习在产品中的应用还处于早期阶段,最佳实践才刚刚开始。随着先进分析模型的普及,有几点需要考虑,包括:部署环境:您可能需要与现有的日志或A/B测试基础设施集成。除了在服务器上部署稳定、高性能的模型外,部署环境还包括如何以及何将模型部署到边缘(移动设备是一个常见的例子)。在边缘设备上部署模型的新工具和策略已经出现。大小,延迟,新鲜度:训练模型需要多少数据?模型推导的响应时间应该是多少?重新训练模型和更新数据集的频率是多少?后者表明你有可重复的数据管道。偏差:如果你的训练数据不具有代表性,你会得到不理想(甚至不公平)的结果。在某些情况下,您可以使用倾向得分或其他方法来相应地调整数据集。监控模型:我认为人们低估了监控模型的重要性。学过统计学的人在这方面具有竞争优势。可能很难知道模型何时退化,退化了多少。概念漂移可能是一个因素。就分类器而言,一种策略是将模型预测的类别分布与预测类别的观测分布进行比较。您还可以设定不同于机器学习模型评估指标的商业目标。例如,推荐系统的任务可能是帮助发现“隐藏或长尾”的内容。关键应用程序:在关键环境下部署的模型必须比普通消费者应用程序更稳定。此外,这种环境下的机器学习应用程序必须能够“连续”运行几个月(无内存泄漏等故障)。隐私和安全:一般来说,如果你能让用户和企业相信他们的数据是安全的,他们可能更愿意共享数据。如上所述,以额外特征扩展的数据往往会带来更好的结果。对于在欧盟经商的企业来说,一个迫在眉睫的问题是《一般数据保护条例》(GDPR)将于2018年5月生效。对抗性机器学习和安全性机器学习(包括能够处理加密数据)的实践研究开始出现在其他领域。模型开发媒体对模型和算法开发的报道越来越多,但如果你与数据科学家交谈,他们中的大多数人会告诉你,缺乏培训数据和数据科学的产品化是一个更紧迫的问题。一般来说,市场上有足够简单明了的用例来开发你喜欢的算法(基本或先进),并在未来进行调整或替换。由于工具使算法的应用更容易,因此有必要回顾如何评估机器学习模型的结果。尽管如此,不要忽视你的业务指标和目标,因为它们可能与调试最好或性能最好的模型不完全一致。研究人员和企业正在开始检查和解决与公平透明相关的问题。对隐私的担忧,加上设备的激增,催生了不依赖集中数据集的技术。深度学习正逐渐成为数据科学家必须理解的算法。深度学习最初用于计算机视觉和语音识别,但现在它涉及到数据科学家可以想到的各种数据类型和问题。挑战包括选择适当的网络结构(结构工程是一个新的特征工程)、过度参数调整、描述问题和转换数据,以适应深度学习。巧合的是,我今年见过的最有趣的大型数据产品之一不是基于深度学习。)很多时候,用户更喜欢可解释的模型(黑盒模型在某些情况下是不被接受的)。考虑到基本机制易于理解,可解释的模型也更容易改进。随着深度学习的兴起,企业开始使用能够解释模型预测原理的工具和能够解释模型来自哪里的工具(跟踪学习算法和培训数据)。我不想列出一个工具清单,因为有太多的工具可以列出。帮助我们摄取、整合、处理、准备和存储数据以及部署模型的工具是非常重要的。Python和R是机器学习编程最流行的语言。对于那些想要使用深度学习技术的人来说,Keras是最受欢迎的入门级语言。虽然笔记本电脑似乎是一个很好的模型开发工具,但集成开发环境(IDE)在R用户中很受欢迎。有许多通用机器学习和深度学习的数据库,其中一些更擅长促进从原型到产品的转变。促进从单机到集群的扩张是一个重要的考虑因素。ApacheSpark在这方面应用广泛。经过一系列的数据整理,您的数据集通常适合在稳定的单个服务器上部署。供应商开始支持合作和版本控制。最后,您可能需要数据科学工具来无缝整合现有的生态系统和数据平台。如果企业想评估哪些问题,哪些用例适合使用机器学习,现在是一个很好的时机。我总结了一些最近的趋势和尚未解决的瓶颈。你的主要结论应该是:你现在可以用机器学习了。从已经有一部分数据的问题开始,然后建立一个优秀的模型。
推荐阅读
- 这三款手机大字体软件一定要给家里长辈安排起来
虽然现在的手机都是智能手机,但是,一些老年人是老花眼,对于手机上的字看不清楚,所以,一般会把字体放大才可以看清,但是,很多人都还不知道手机大字体软件有什么。因此不知道如何放大。 1、字体管家 专为安卓手机用户构建的字体样式下…查看详情
- 国内获得融资的6家移动CRM平台介绍
随着移动互联网时代到来,只能用于电脑的CRM客户管理系统已无法满足现代企业需求,因而催生出了移动CRM平台,也催生出许多的移动CRM平台厂商。而这些厂商中,也不乏优秀的、获得融资的移动CRM平台,接下来小万就为大家选出6家获得融资厂商,以做…查看详情
- 企业自己做网站建设,避免三大坑
现代企业愈发具有互联网经营意识,网站建设早已变成司空见惯的事情。不少初创企业做网站,或发展中企业网站改版升级,开始直接选择自己做网站建设。这在一定程度上能够帮助企业节省沟通成本,按照自己的想法来落实网站建设,但也无可厚非的带来了一些麻烦。企…查看详情
- 商标注册第19类属建筑材料,其中包括15个小项
商标注册是商标使用人取得商标专用权的前提和条件,只有经核准注册的商标,才受法律保护。“先申请先注册”的商标注册原则是中国确定商标专用权的基本准则。商标注册一共分了45类,商标注册申请人可根据实际情况进行类别选择。今天,小万就为大家详细介绍商…查看详情
- 背单词的软件哪个好用 好用的背单词app推荐
很多人都跟我说不知道怎么记单词,而且很多人不知道怎么利用记单词软件来记单词,下面万商云集小编给大家推荐一下背单词的软件哪个好用 好用的背单词app推荐,希望能帮助到大家解决记单词的问题。 1、百词斩app 这个软件想必大家不会陌生…查看详情
- 版权纠纷属于民事还是刑事
版权纠纷通常属于民事范畴,而非刑事。以下是关于版权纠纷的基本解释和划分为民事性质的原因。 版权是指对作品的独占性权利,包括复制权、发行权、演出权等。当他人未经授权使用他人作品时,可能涉及版权侵权问题。根据大多数国家和地区的法律体系,版权纠纷…查看详情
- 网站seo推广 | 建站布局关键词,若流量不佳要诊断报告分析
网站seo推广,并非是在网站建设完成后才开始进行的。要想网站有曝光、有流量,应在网站建设初期就进行关键词布局,如此才能在后续的推广中更轻松。 图片来源于网络 ◆ 网站seo推广是什么?网站seo推广就是指基于网站建设平台所进行的一系列se…查看详情
- 为什么ERP系统实施难?应该怎样规避风险
中小企业在信息数字化的道路上徘徊不前,并不是看不到先进的技术和理念,其核心原因是ERP系统实施困难的问题没有得到良好的解决。目前通过实施ERP来提高企业自身的成本、速度、管理、质量、科技等方面的竞争优势,已成为中小企业的当务之急。谁能先一步…查看详情
- 苏州商标注册去哪里?通过这些渠道就能够完成商标注册
很多企业为了能够保护自己的品牌形象,都会设有商标设计,而且设计完商标之后也会进行商标注册,其实这对于企业来讲是非常重要的选择了,只有拥有了自己的商标注册之后,才能够得到产品的保护,也能够对自己的企业形象带来维护,而且企业商标也更是能够让消费…查看详情
- 全球比较出名的网站有哪些
在进行网站建设的时候,很多人也都会选择比较靠谱的平台,因为现在比较靠谱的网站建设公司才能够带来更好的网站建设效果也能够帮助企业得到好的发展,现在全球比较出名的网站有很多,在建站之前也应该要有了解。那么全球比较出名的网站有哪些呢?下面就来给大…查看详情
- 注意事项 | 企业要做好注册商标管理,维护也是一个重要环节
商标注册完成,证书拿到手后就可以不管不顾了?错!注册商标也是需要进行管理,尤其是对企业来说。往下翻看,了解更多关于注册商标管理的事项。 图片来源于网络 企业商标证书到手后,应如何做好注册商标管理? ◆ 事项一:保持联系若是委托代理机构代为注…查看详情
- 淘宝访客数是什么意思
优质答案(1) 抖音小店总访客数指的是有多少用户点进了抖音小店的主页。点击数指的是有多少用户?点进了抖音小店的主页,同时点开了商品页面。 只有用户点开了商品页面才会计算点击数。 对于抖音小店来说,访客数以及点击率都是非常重要的两个…查看详情
- ascii码是几位码
一个字符的标准ascii码是多少字节?一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。 奇校验规定:正确的代码一个字…查看详情
- 淘宝同城购怎么操作?
优质答案(1) 是你买的东西,可能是在你的城市发给你的,所以说就会很快就到达你要的地址,然后你填的地址,然后就离你很近,然后就马上就能发货到你那里,然后一天之内可能就会给你送到或者几个小时就能给你送到,这就是同城发货,同城购买的话,应…查看详情
- 支付宝跑腿任务是干什么的?
优质答案(1) 打开支付宝——全部应用——蚂蚁微客,点进去就可以看到服务界面,点击出门跑腿图标,就可以开始报名了,要芝麻信用分大于550分才可以的。 优质答案(2) 打开支付宝app,在首页点击进入全部功能页面; 然后在找到“蚂…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






