数据科学家的20个面试问题及答案
2021-01-06 14:48:16 阅读(225) 评论(0)
摘要:KDnugets编辑给你“20个问题来区分真假数据科学家”的答案,包括什么是正则化,我们崇拜的数据科学家,模型验证等等。作者:GregoryPiatetsky,KDnuggets.最近,KDnuggets发表的文章“20个问题来区分真假数据科学家”非常受欢迎,在1月份的阅读量中排名第一。但是这些问题没有提供答案,所以KDnugets的小编们聚在一起写这些问题的答案。我还加了一个特别的问题——第21个问题,在20个问题中没有。以下是答案。Q1.解释什么是正则化,为什么有用。回答者:MatthewMayo正则化是为了引导平滑,防止过拟合而添加调优参数的过程模型。(参加KDnugets文章《过拟合》)这通常是通过添加常数到现有权向量。这个常数通常要么是L1(Lasso)要么是L2(ridge),但实际上可以是任何标准。该模型计算结果的下一步应该是最小化正则化训练集计算的损失函数的平均值。在这里,XavierAmatriain清楚地向感兴趣的人展示了L1和L2正则化之间的比较。图1:Lp球:随着p值的降低,相应的L-p空间的大小也会降低。Q2.你最崇拜哪些数据科学家和初创公司?回答者:GregoryPiatetsky这个问题没有标准答案,以下是我个人最崇拜的12位数据科学家,排名不分顺序。GeoffHinton,YannLeCun,由于他们对神经网络的不懈研究,以及Yoshuabengio,开启了当前深度学习的革命。DemisHassabis,由于他在DeepMind上的出色表现——在Atari游戏中实现了人或超人的表现,以及最近Go的表现。来自datakind的JakePorway和芝加哥大学DSSG的RayidGhani为社会做出了贡献。DJPatil,利用数据科学,美国首席数据科学家提高了美国政府的工作效率。KirkD.Borne,由于其在大众传媒中的影响力和领导能力。ClaudiaPerlich,作为kdd-2014的领导者,由于其对广告生态系统的贡献。HilaryMason在Bitly工作出色,作为大数据明星激励他人。UsamaFayyad,它展示了它的领导能力,为KDD和数据科学设定了高目标,这帮助我和成千上万的人不断激励自己做到最好。HadleyWickham,由于他在数据科学和数据可视化方面的出色成就,包括dplyr、ggplot2和RStudio。在数据科学领域有太多优秀的初创公司,但我不会在这里列出它们,以避免利益冲突。Q3.对定量结果变量的预测模型如何验证多元回归生成。答:MatthewMayo模型验证方法:如果模型预测值远远超过响应变量范围,则会立即显示估计不良或模型不准确。如果值似乎合理,请检查参数;以下情况表示估计差或多个共线性:相反的预期迹象,不寻常或大或小的值,或在添加新数据时观察不一致。使用该模型预测新数据,并使用计算系数(平方)作为模型的有效性措施。用数据拆分形成一个单独的数据集,用于估计模型参数,另一个用于验证预测。如果数据集包含一个实例的较小数字,则用对折重新采样,测量效率与R平方和均方误差(MSE)。Q4.解释准确性和召回率。它们与ROC曲线有什么关系?回答者:gregoryPiatetsky这是kdnuggets常见问题的答案:精度和召回计算精度和召回实际上相当容易。想象一下10000例中有100例负数。您希望预测哪一个是积极的,您可以选择200个更好的机会来捕捉100个积极的案例。当你得到实际结果时,记录你预测的ID,总结你是对是错。以下是正确或错误的四种可能性:TN/真负数:例负数和预测负TP/真实数:例正数和预测正FN/假负数:例负数,但预测负FP/假正数:例负数,但预测正数的意义是什么?现在你必须计算每个bucketet中有多少个例子进入每个bucket:现在,你的雇主会问你三个问题:1。你的预测准确率是多少?你回答:确切值是(9760 60)除以10000=98.2%2。你得到正值的例子比例是多少?你回答:召回比例为60,除以100=60%3。正值预测的百分比是多少?你回答:精度值是维基上精度和召回的优秀例子,除以200=30%。图4.精度和召回ROC曲线代表灵敏度(召回)与特异性(不准确)之间的关系,常用于衡量二元分类的性能。然而,在处理高倾斜度数据集时,精度召回(PR)曲线给出了更具代表性的表现。见Quora回答:ROC曲线与精度-召回曲线有什么区别?。Q5.如何证明你对算法的改进确实比什么都不做好?回答者:AnmolRajpurohit..在追求快速创新(又称“快速成名”)时,我们经常看到,违反科学方法原则导致误导性创新,即有吸引力的观点尚未得到严格验证。这样的场景是,你可能对一个给定的任务有几个潜在的改进想法:改进算法并产生更好的结果。一个明显的冲动是尽快宣布这些想法,并要求它们尽快实施。当被问及支持数据时,共享的结果往往是有限的,这很可能受到选择偏差(已知或未知)或误导性最小值(由于缺乏各种合适的测试数据)的影响。数据科学家不允许他们的情绪控制他们的逻辑推理。然而,确切的方法证明,你对算法的改进确实比什么都不做好,这取决于实际情况。有几个共同的指导方针:确保性能比较的测试数据没有选择偏差,确保测试数据足够,从而成为各种真实数据的代表(有助于避免过拟合),确保“控制实验”的原则,即在比较原始算法和新算法的性能时,性能、测试环境(硬件等)必须完全相同。).确保结果是可重复的。当类似结果出现时,检查结果是否反映局部极大值/极小值或全局极大值/最小值。实现上述政策的一种常见方法是通过A/B测试。这两个版本的算法是在类似的环境中长时间运行和输入数据。确保结果是可重复的。当类似结果出现时,检查结果是否反映局部极大值/极小值或全局极大值/最小值。实现上述政策的一种常见方法是通过A/B测试。这两个版本的算法是在类似的环境中长时间运行和输入数据。这种方法是一种特别常见的网络分析方法。Q6.根本原因分析是什么?回答者:GregoryPiatetsky根据维基百科分析根本原因(RCA)这是一种解决错误或问题根源的方法。如果一个因素来自problem-fault-在sequence的循环中删除后,被认为是阻止最终不良事件重复的根源;一个因果因素影响事件的结果,但不是根本原因。最初用于分析工业事故的根本原因分析,但现在广泛应用于医疗、项目管理、软件测试等其他领域。这是明尼苏达州实用根本原因分析工具包。本质上,你可以找到问题的根源和原因之间的关系,反复问“为什么”,直到你找到问题的根源。这种技术通常被称为“五个原因”,当时涉及的问题可能比五个问题少或多。图5为什么分析实例来自《根本原因分析的艺术》Q7.您熟悉价格优化、价格弹性、库存管理、竞争情报吗?举例说明。回答者:GregoryPiatetsky这些问题属于经济学范畴,不常用于数据科学家的面试,但值得理解。价格优化是利用数学工具来确定客户将如何处理不同渠道的产品和服务。大数据和数据挖掘使个性化价格优化成为可能。如今,亚马逊这样的公司甚至可以根据自己的购买历史,进一步优化不同游客的价格,尽管有强烈的争论是否公平。一般来说,价格弹性是指价格弹性和价格敏感性的衡量。其计算方法是:价格弹性=需求变化%÷价格变化%。同样,供应的价格弹性也是一个经济衡量标准,表明如何应对产品或服务的变化。库存管理是对企业在生产过程中使用的产品订购、储存和使用的监督和控制。它监督和控制销售的产品和成品的数量。维基百科全书定义了竞争情报:定义、收集、分析和分发相关产品、客户、竞争对手和所需环境的任何方面,以支持管理者和管理者做出战略决策的环境。就像Googletrends,Alexa,像Compete这样的工具可以用来确定趋势和分析你的竞争对手的网站。以下是一些有用的资源:竞争情报报告指标,byavinashkaushik37监控你竞争对手的最佳营销工具fromkissmetrics来自10位专家的10个最佳竞争情报工具。8.什么是统计验证?回答者:GregoryPiatetsky维基百科将二元假设检验的统计检定力或灵敏度定义为测试正确率拒绝零假设的概率(H0)在备选假设(H1)中是真实的。换句话说,统计检定力是以检测到的效果为基础的可能性研究。统计能力越高,犯第二类错误的可能性就越大(结论无效,但实际上有)。有一些工具来计算统计功率。9.解释什么是重抽样,为什么有用。并说明它们的局限性。回答者:GregoryPiatetsky经典统计参数检验比较理论抽样分布。基于相同样本的重复采样,采样的数据驱动而不是理论驱动的方法。重采样是指估计样本统计精度(中位数、方差、百分位数)的方法之一,使用可用数据子集(折叠)或随机提取的一组数据点替换(指南)在意义测试中,在数据点交换标签(替换测试),也称为精确测试、随机测试或随机测试)使用随机子集验证模型(指南,交叉验证)关于bootstrapping的维基百科,jackknifing.。见howtocheckheseswithbotstrapandapachespark,这里是一个很好的概述重采样统计。看看HowtocheckHypotheswithbotstrapandapachespark。这是一个很好的概述和重采样统计。10.假阳性或者假阴性太多哪个比较好?说明原因。回答者:Devendradesale,这取决于问题本身和我们正在努力解决的问题。在医学检查中,假阴性可能会给患者和医生提供虚假的安慰。表面上看,当它不存在时,它实际上是存在的。这有时会导致患者及其*的治疗不当或不足。因此,人们希望有很多假阳性。对于垃圾邮件过滤,当垃圾邮件过滤或垃圾邮件拦截技术错误地将合法的电子邮件信息归类为垃圾邮件,并影响其交付结果时,就会出现假阳性。尽管大多数反垃圾邮件策略阻止和过滤垃圾邮件的比例非常高,但排除毫无意义的假阳性结果是一项更加艰巨的任务。因此,我们更倾向于假阴性而不是假阳性。11。选择偏差是什么,为什么重要,如何避免?回答者:MathewMayo选择偏差,一般来说,是由一个非随机组样本引起的。例如,如果给定样本的100个测试案例是60/20/15/5的四个类别,并且实际上发生在群体中相对相等的数字中,那么给定模型可能会导致错误的假设,概率可能取决于预测因素。避免非随机样本是处理偏差的最佳方法,但这是不现实的。为了帮助解决问题,可以引入重新采样、提高权重等技术。
推荐阅读
- 万商云集2人入选“蓉贝”软件人才资深工程师
近日,在由成都市人民政府主办的第二届“蓉贝”软件人才大会上,万商云集2人成功入选“蓉贝”软件人才资深工程师,这是万商云集继通过《CMMI3认证》、《高新技术企业认证》及被认定为“成都市企业技术中心”等之后,在技术实力方面获得的又一重要殊荣。…查看详情
- 抠图软件免费版好用吗?哪款值得选择呢?
现在有越来越多的方面就要用到抠图软件了,通过使用这样的软件,能够让我们的图片变得更有特色,可以改变图片本身的表达内容。但是市场中软件最多却多数都是收费的,人们往往也担心免费版的软件不好用,那么抠图软件免费版好用吗?哪款值得选择呢…查看详情
- 个人房产查询系统网站如何查询
个人房产查询系统网站是一个提供房产信息查询服务的*平台。通过这个网站,用户可以轻松地获取有关特定房产的相关信息,包括房屋所有权、土地使用权、抵押信息等。要使用个人房产查询系统网站进行查询,您需要遵循以下步骤:1. 访问网站:首先,打开您所在…查看详情
- 2022年亚马逊开店流程及费用
亚马逊商城是目前全球最大的电商平台,卖家和买家数量都是非常多的。现在仍有不少卖家想到亚马逊商城开店,那么大家首先要了解清楚亚马逊商城开店条件及费用有哪些,这样才能更加顺利的完成亚马逊商城注册。亚马逊开店流程 1、进入亚马逊全球开店官网…查看详情
- 申报国家知识产权示范企业的意义及相关信息
国家知识产权局公示的《2019年度国家知识产权优势示范企业名单》共有274家企业。国家知识产权示范企业和优势企业是为实现知识产权强企发展目标而设立的,国内或区域内的骨干企业申报可进行申报,审核通过之后,可以获得政策支持。图片来源于网络一、示…查看详情
- 2021最新各地区适用便利店收银系统排行
在当今的时代,我们身边随处可见,都处于一个便利的时代。同时出现的还有便利超市,便利服务,以及我们今天的话题便利店。但往往更便利的模式更得人青睐,但有些地区总觉得产品会存在适用性差异,2021最新各地区适用便利店收银系统排行。 1、友数便利店…查看详情
- 小程序模板哪个平台的好呢?你知道吗?
想要制作小程序,并不像大家想象的那么复杂,可以通过使用第三方平台来帮助,市场中这样的平台还是非常多的,选择合适的平台,就能够直接套用模板制作起来非常的简单,也不需要花费太长的时间那么小,程序模板哪个平台的好呢?你知道吗?下面就来…查看详情
- 手机桌面应用隐藏软件
虽然现在的软件比较多,但是有一些软件针对一些人并没有什么用处,可是有的软件是手机自带的,没有用也卸载不了,那么,可以通过隐藏的方法,让它不占内存,隐藏软件有哪些? 1、应用隐藏大师 应用隐藏大师计算器,通常又名应用隐藏大师。…查看详情
- 免费的安卓手机定位软件有哪些 安卓手机定位软件排行榜
现在市面上有很多的安卓手机免费定位软件,这些定位软件都是很不错的,下面*就给大家来详细介绍一下免费的安卓手机定位软件有哪些 安卓手机定位软件排行榜这一块的内容,希望能帮助到大家。 安卓手机定位软件排行榜 1.iMyFoneAny…查看详情
- 淘宝店铺搜索排名怎么提高?
优质答案(1) 淘宝排行榜查看步骤: 1登录淘宝;2点击淘宝右下角的淘宝指数;3点击淘宝指数页排行榜;4在这里,你可以清楚地知道各种搜索关键词的一个变化和交易后的一个增加;5你可以根据你想买的产品或者你想卖的产品类别进行查询 优质…查看详情
- 怎么才能上facebook 国内上facebook教程
Facebook是世界上最大的社交网站,通常被称为“Facebook”,类似于中国的人人网,它使用实名注册,在这里你可以结识来自世界各地的不同人士。如果你想成为他们中的一员,注册一个Facebook帐户是一个先决条件。下面*就给大家介绍…查看详情
- 杀手机病毒软件有哪些 杀手机病毒软件排行榜
现在很多的手机用着用着就会出现卡顿的现象,再加上有些手机会被病毒入侵,下面*就给大家来详细介绍一下杀手机病毒软件有哪些 杀手机病毒软件排行榜这一块的相关内容,希望能帮助到大家,。 杀手机病毒软件排行榜 1、《360手机卫士极速版…查看详情
- 媒体播放软件有哪些?这几款值得选择
喜欢看视频或者是电影和电视剧的话,不一定只是通过电视来播放,还可以选择各种主流的媒体播放软件,让大家能够轻松的,找到自己喜欢的视听内容,也可以享受更畅爽的体验,下面就为大家介绍几款,值得选择的媒体播放软件。 1、爱奇艺 这…查看详情
- 如何去水印,推荐6款免费去水印软件附简单教程
相信大家在进行图片和视频编辑的时候一定经常遇到这样一个问题,如何去水印?为满足大家的需求,小万整理了一份6款免费去水印软件推荐清单,内附简单教程~ 1.水印管家官网 轻松解决图片去水印问题,不仅操作简单,还可以一键批量处理多张图片,轻松去除…查看详情
- 软件著作权登记和著作权的拥有是否有必然联系?
有很多人好奇,如果没有软件著作权登记这一流程,是否能取得软件著作权?《著作权法》第二条规定:“中国公民、法人或者其他组织的作品,不论是否发表,依照本法享有著作权。 图片来源于网络外国人、无国籍人的作品根据其作者所属国或者经常居住地国同中国签…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
邮箱:zjb@iwanshang.com
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00















































注册有好礼



