督导式机器学习的使用现状分析
2020-12-28 15:39:11 阅读(155) 评论(0)
随着我们进入2017年下半年,是时候看看使用数据科学和机器学习的公司面临的共同挑战了。假设你的公司已经大规模收集数据,需要使用分析工具,你已经意识到数据科学可以发挥重要作用(包括改善决策或企业管理、增加收入等),并优先考虑。对收集数据和识别感兴趣的问题并非小事,但假设你在这些方面取得了良好的开端,那么还有哪些挑战呢?数据科学是一个广泛的话题,所以我想解释一下:本文主要讨论了监督机器学习的使用情况。假设你有一个处理数据摄取和集成的团队,以及一个维护数据平台(“真相来源”)的团队,新的数据来源不断出现,领域专家负责找到这些数据来源。此外,由于我们主要讨论监督学习,缺乏培训数据仍然是机器学习项目的主要瓶颈,这并不奇怪。有一些很好的研究项目和工具可以快速创建庞大的训练数据集(或加强现有的训练数据集)。斯坦福大学的研究人员已经证明,弱监督和数据编程可以用于训练模型,而无需使用大量手工标记的训练数据。深度学习研究人员对生成模型的初步研究在计算机视觉等无监督学习领域取得了令人满意的成果。在机器学习的背景下,评估数据的另一种有用方法是“思考特性而不是算法”。友情提示:数据扩展可以改善你现有的模型,在某些情况下,甚至可以帮助缓解冷启动问题。大多数数据科学家可能使用开源数据或通过第三方数据提供商扩展他们的现有数据集,但我发现数据扩展有时会被忽略。人们认为获取外部数据、标准化和使用这些数据进行实验没有开发模型和算法那么有吸引力。许多用例的目标是从原型到产品,使数据科学项目产品化。为使这一过程更加高效,最近出现了一个新的工作角色——机器学习工程师。还有一套新工具可以促进从原型到产品的转变,帮助跟踪和分析与产品相关的背景和元数据。机器学习在产品中的应用还处于早期阶段,最佳实践才刚刚开始。随着先进分析模型的普及,有几点需要考虑,包括:部署环境:您可能需要与现有的日志或A/B测试基础设施集成。除了在服务器上部署稳定、高性能的模型外,部署环境还包括如何以及何将模型部署到边缘(移动设备是一个常见的例子)。在边缘设备上部署模型的新工具和策略已经出现。大小,延迟,新鲜度:训练模型需要多少数据?模型推导的响应时间应该是多少?重新训练模型和更新数据集的频率是多少?后者表明你有可重复的数据管道。偏差:如果你的训练数据不具有代表性,你会得到不理想(甚至不公平)的结果。在某些情况下,您可以使用倾向得分或其他方法来相应地调整数据集。监控模型:我认为人们低估了监控模型的重要性。学过统计学的人在这方面具有竞争优势。可能很难知道模型何时退化,退化了多少。概念漂移可能是一个因素。就分类器而言,一种策略是将模型预测的类别分布与预测类别的观测分布进行比较。您还可以设定不同于机器学习模型评估指标的商业目标。例如,推荐系统的任务可能是帮助发现“隐藏或长尾”的内容。关键应用程序:在关键环境下部署的模型必须比普通消费者应用程序更稳定。此外,这种环境下的机器学习应用程序必须能够“连续”运行几个月(无内存泄漏等故障)。隐私和安全:一般来说,如果你能让用户和企业相信他们的数据是安全的,他们可能更愿意共享数据。如上所述,以额外特征扩展的数据往往会带来更好的结果。对于在欧盟经商的企业来说,一个迫在眉睫的问题是《一般数据保护条例》(GDPR)将于2018年5月生效。对抗性机器学习和安全性机器学习(包括能够处理加密数据)的实践研究开始出现在其他领域。模型开发媒体对模型和算法开发的报道越来越多,但如果你与数据科学家交谈,他们中的大多数人会告诉你,缺乏培训数据和数据科学的产品化是一个更紧迫的问题。一般来说,市场上有足够简单明了的用例来开发你喜欢的算法(基本或先进),并在未来进行调整或替换。由于工具使算法的应用更容易,因此有必要回顾如何评估机器学习模型的结果。尽管如此,不要忽视你的业务指标和目标,因为它们可能与调试最好或性能最好的模型不完全一致。研究人员和企业正在开始检查和解决与公平透明相关的问题。对隐私的担忧,加上设备的激增,催生了不依赖集中数据集的技术。深度学习正逐渐成为数据科学家必须理解的算法。深度学习最初用于计算机视觉和语音识别,但现在它涉及到数据科学家可以想到的各种数据类型和问题。挑战包括选择适当的网络结构(结构工程是一个新的特征工程)、过度参数调整、描述问题和转换数据,以适应深度学习。巧合的是,我今年见过的最有趣的大型数据产品之一不是基于深度学习。)很多时候,用户更喜欢可解释的模型(黑盒模型在某些情况下是不被接受的)。考虑到基本机制易于理解,可解释的模型也更容易改进。随着深度学习的兴起,企业开始使用能够解释模型预测原理的工具和能够解释模型来自哪里的工具(跟踪学习算法和培训数据)。我不想列出一个工具清单,因为有太多的工具可以列出。帮助我们摄取、整合、处理、准备和存储数据以及部署模型的工具是非常重要的。Python和R是机器学习编程最流行的语言。对于那些想要使用深度学习技术的人来说,Keras是最受欢迎的入门级语言。虽然笔记本电脑似乎是一个很好的模型开发工具,但集成开发环境(IDE)在R用户中很受欢迎。有许多通用机器学习和深度学习的数据库,其中一些更擅长促进从原型到产品的转变。促进从单机到集群的扩张是一个重要的考虑因素。ApacheSpark在这方面应用广泛。经过一系列的数据整理,您的数据集通常适合在稳定的单个服务器上部署。供应商开始支持合作和版本控制。最后,您可能需要数据科学工具来无缝整合现有的生态系统和数据平台。如果企业想评估哪些问题,哪些用例适合使用机器学习,现在是一个很好的时机。我总结了一些最近的趋势和尚未解决的瓶颈。你的主要结论应该是:你现在可以用机器学习了。从已经有一部分数据的问题开始,然后建立一个优秀的模型。
推荐阅读
- 免费修复老照片软件
其实每一个人都是怀旧的,在平时的时候也会存储一些老照片。但是老照片很有可能会出现发黄或者是人物图像不清晰的现象,这种情况下很多人就想要选择一些软件来进行修复。有些软件在修复照片的时候可能需要收费,但是也有些免费的软件。那么免费修…查看详情
- 天猫旗舰店保证金是多少?
天猫的保证金和年费是按产品来的,不同产品的保证金和年费都不一样。保证金和年费都是开店的时候缴纳,保证金退店时会退还,年费是每年缴纳,天猫有激励政策,达到一定的年销售额会退还一半或者全退。下面万商云集小编就给大家来详细介绍一下天猫旗舰店保…查看详情
- 小程序怎么推广
如何推广小程序?1、推广之前的准备 自己一定要用心去体验,花点时间去测试使用,要很清楚的知道这个小程序的功能和特色。你才能给你推荐的人答疑解惑。 2、推广之前的准备 分析这款软件的目标人群,定位好推广对象,这就避免了逢人便推,最后…查看详情
- 热门完本玄幻小说排行榜,排名不分先后
小说作为现在社会中地位比较高的存在,我们应该如何区分这个东西呢,周所周知,在小说的世界中,有很多分类,在各种分类里面有不同的小说等待着你去解锁,那我们今天就来盘点一下完本玄幻小说排行榜,排名不分先后。1、牧神记是一部神仙一般的玄幻小说,在太…查看详情
- 有哪些可以制作视频特效的软件app
现在最受欢迎的就是抖音快手,很多人都通过这两个平台赚到了许多钱,那么,你要想也在这些平台上赚钱,首先必须要学会做吸引人的视频,有了粉丝才可以赚钱,特效视频制作软件app有哪些? 1、秒拍手机版 秒拍手机版是拍摄视频手机软件,…查看详情
- 企业网站关键词没选对,怎么可能上首页
域名是企业网站的“门牌号”,当用户首次搜索或记不住企业网站“门牌号”时,大多会选择通过关键词搜索来查找相关企业网站,因此,企业网站关键词十分重要。选择正确的符合用户搜索习惯的关键词,能够让企业网站通过关键词优化排在搜索相关企业结果中的首页,…查看详情
- 编程是学些什么东西
猿辅导编程讲的什么?猿编程课程主要面向4-12岁的学生,走的是Python语言的程序设计路线。主要是帮助孩子掌握编程语言和编程思维,来到达开发设计程序的目。智能制造专业学什么课程?主干课程:机床电气控制与PLC、工业机器人技术、数控加工工艺…查看详情
- 有哪些比较好的微分销系统推荐
以下是几个比较好的微分销系统推荐:1. 京东微分销:是中国最大的电商平台之一,提供了强大的微分销系统。它具有丰富的商品资源,可为分销商提供广泛的选择。该系统还提供了多种推广工具和营销支持,帮助分销商轻松推广产品并获取佣金收益。2. 微易分销…查看详情
- 天猫、京东、拼多多等主流电商平台双11玩法曝光
双11销售业绩一年比一年创新高,每一年的电商玩法也在持续更新。随着双11的临近,相关促销话题预热了大半月,那么天猫、京东、拼多多等主流电商平台到底推出了哪些玩法呢?小万汇总了不同平台的玩法,一起来看看吧!天猫:打造最省钱的双11省钱是相对用…查看详情
- 2021国内常用图书管理软件排行榜
图书管理系统是建立在先进的计算机技术、条码识别技术及非接触式IC卡技术之上,为图书借阅提供方便、高效的管理,想知道一般图书管理都用哪些软件吗?且看这份整理的2021国内常用图书管理软件排行榜。 1.晴川图书管理软件 晴川图书管理软件采用大型…查看详情
- 如何为企业选购一款合适的CRM客户管理系统?
CRM系统主要是一款以人为中心的管理系统,几乎接近于客户管理中心,可以全面的了解客户的需求,来帮助客户管理,可以进行一切管理活动,现在的人工智能视频并不断发展,他用科技和全面服务相结合,让大家更加喜欢他,可能降低科技成本。 …查看详情
- 怎样利用企业固定资产管理系统对企业的固定资产进行管理
企业的固定资产一般都比较庞大,占用企业大量的资金,对于固定资产的管理很多企业也比较重视,但是很多企业却管理得不好。固定资产一般种类多、数量大、地点也比较分散,如果企业的固定资产管理不善,容易给企业造成资产与账面不符,设备设施、物品等的重复购…查看详情
- 万商云集董事长王飞受邀出席新瑞学院潜龙二期开学典礼
近日,以“教育+资本”联合打造世界级企业的创业教育项目“寻龙项目”之潜龙二期班开学典礼在北京举行。万商云集董事长王飞作为学员之一,与来自全国的30余名优秀企业家学员切磋交流,共谋中国经济发展新未来。据悉,新瑞学院致力于搭建一个汇聚基石投资人…查看详情
- 企业网站建设,哪些地方该花钱?
一说到企业网站建设,不少企业主首要条件就是高端大气上档次,必须充分展现公司实力。确实,网站建设是每个企业必须要做的事,是企业线上展示的窗口,装扮得越好看越能吸引用户关注。然而,企业网站建设不仅要吸睛,更要吸金,一个好的企业网站,是能够为企业…查看详情
- 如何经营好书店? 书店经营技巧有哪些?
在过去的一段时间里面,关于实体书店运营模式的文章看了很多,有的侧重颜值,通过高水平的设计来打造网红打卡地;有的侧重活动,联合作者与出版社,用丰富的文化内容来吸引读者;有的侧重融合,以餐饮或文创商品的高附加值弥补图书方面的盈利能力不足;还…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00
















































注册有好礼



