什么是过拟合,如何控制它?
2021-01-06 14:35:04 阅读(178) 评论(0)
特别问题:解释什么是过拟合,你如何控制它不是20个问题,但它可能是帮助你区分真假数据科学家的最关键的问题!回答者:GregoryPiatetsky过拟合是指(机器)学习了由于意外而无法复制的虚假结果。我们经常看到报纸上的报道推翻了以前的研究,发现鸡蛋不再对你的健康有害,或者饱和脂肪与心脏病无关。在我们看来,这个问题是许多研究人员经常犯的基本错误——过度拟合数据,特别是在社会科学或医学领域。研究人员在没有适当统计控制的情况下测试了太多的假设,所以他们碰巧发现了一些有趣的事情和报告。不足为奇的是,由于(至少有一部分是)偶然的原因,下一个效果将不再明显或不存在。约翰决定了这些研究实践缺陷·p·a·埃尼迪斯在他的里程碑论文《为什么大部分发表的研究成果都是错误的》(《公共科学图书馆·医学》杂志,2005年)中发表。埃尼迪斯发现结果往往被夸大或无法复制。在他的论文中,他提出了统计证据。事实上,他声称的大多数研究成果都是假的。埃尼迪斯指出,为了使研究结果可靠,应该有:大样本和大量结果测试关系,设计、定义、结果和分析模式的选择更灵活,根据资本预算和其他因素(包括科学普及),这些规则经常被违反,导致许多无法再现的结果。比如发现标准普尔500指数与孟加拉国的黄油生产密切相关(从1981年到1993年)(这里是PDF)。如果你想看到更多有趣的结果(包括完全虚假),你可以使用一些工具,比如谷歌的corelate或者tylervigen的spuriorelations。可以使用几种方法来避免数据拟合试图找到最简单的假设标准化(添加复杂性惩罚)随机测试(使变量随机化,尝试您的方法——如果发现完全相同的结果,必须出错)嵌套交叉验证(在一定程度上做特征选择,然后交叉验证整个外部操作方法)调整错误发现率使用2015年提出的突破——可重复使用的数据科学是世界理解的前沿科学,数据科学家的责任是避免过度拟合数据,教育公众和媒体错误数据分析的风险。此外,请参考数据挖掘和数据科学的大缺陷:过度拟合一个避免过度拟合的超级想法:自适应数据分析中可重复使用的维护方法克服过度拟合:保护自适应数据分析的有效性。11种过度拟合的“聪明方法”以及如何避免它们的标签:过度拟合Q12。例如,解释如何使用实验设计来回答用户行为的问题。回答者:BhavyaGeethika.第一步:制定研究问题页面加载时间对用户满意度评级有什么影响?回答者:BhavyaGeethika.步骤1。研究页面加载时间对用户满意度评级的影响是什么?步骤2。确定变量,确定原因和结果。独立变量-页面加载时间,非独立变量-用户满意度评级步骤3。假设减少页面下载时间会影响用户对网页的满意度评级。在这里,我们分析页面加载时间的因素。图12.有缺陷的实验设计(漫画)步骤4。确定实验设计,我们考虑实验的复杂性,即改变一个或多个因素,在这种情况下,我们使用阶级设计(2^k设计)。选择设计也是基于目标类型(比较、筛选、响应面)和许多其他因素。这里我们还确定了参与者/参与者之间以及两者的混合模型。例如,有两个版本的页面,一个版本的购买按钮(行动呼吁)在左边,另一个版本在右边。包括参与者设计-所有用户组看到两个版本的参与者之间的设计-一组用户看到版本A,娶她的用户组看到版本B。第五步。开发实验任务和过程:详细描述实验步骤,用于测量用户行为的工具,并制定目标和成功标准。收集用户参与度的定性数据进行统计分析。步骤6。确定操作步骤和测量标准操作:控制一个因素的级别,其他因素将用于操作。我们还需要确定行为标准:提示和行为之间的持续时间(用户点击购买产品需要多长时间)。频率-行为发生次数(用户点击次数的给定页面在一个时间)持续-特定行为持续时间(添加所有产品的时间)程度-行为发生时的强烈冲动(用户购买商品有多快)步骤7:分析结果识别用户行为数据,假设成立,或根据观察结果反驳:用户满意度评级与页面加载时间的比例。Q13“长”数据和“宽”数据有什么区别?回答者:GregoryPiatetsky在大多数数据挖掘/数据科学应用记录(行)比特性(列)更多——这些数据有时被称为“高”(或“长”)数据。在一些应用程序中,如基因组学和生物信息学,你可能只有一个小数量的记录(患者),如100或200000供每个患者观察。标准的“高”工作数据方法会导致过度拟合数据,因此需要特殊的方法。图13.简化高数据和宽数据的不同方法,表示稀疏筛选的确切数据,byJiepingYe。问题不仅仅是重塑数据(这里是有用的R包),还要避免假阳性,通过减少特征找到最相关的数据。统计学习中采用Hastietibshirani等方法减少特性和稀疏覆盖:套索和总结,Wainwright。(您可以免费下载PDF书籍)套索等方法来降低特性,在“统计学习稀疏”中很好地包括:“套索与总结”byHastie,Tibshirani,andWainwright(您可以免费下载PDF书籍)Q14您如何确定文章(如报纸)中公布的统计数字是错误的或支持作者的观点,而不是关于一个主题正确全面的事实信息?ZackLipton提出了一个简单的规则:如果报纸上发布了一些统计数据,那么它们就错了。Zacklipton建议一个简单的规则:如果报纸上发表了一些统计数据,那就错了。这里有一个更严重的答案,来自Anmolrajpurohit:每个媒体组织都有目标受众。这一选择极大地影响了决策,如本文的发表、如何缩写本文、本文强调哪一部分、如何描述给定事件等。第一步是检查出版机构及其目标受众,以确定发表任何文章统计数据的有效性。在福克斯新闻、《华尔街日报》中,即使是同一条新闻所涉及的统计数据,你也会注意到它的出版非常不同。、ACM/IEEE期刊不同。因此,数据科学家很聪明地知道在哪里获取信息(以及从源头上判断事件的可信度!)。图14a:福克斯新闻上误导性条形图的例子图14b:如何客观地呈现来自5WaystoavoidBeingFoledBystatistics的同样数据,作者经常试图通过精明的故事讲述和省略重要细节,隐藏自己的研究不足,跳到提出有吸引力的错误观点。因此,使用拇指法则来确定文章包含误导性的统计推断,即检查本文是否包含了与统计方法相关的选择细节。找一些关键词,比如“样本”、“误差”等等。虽然没有完美的答案是什么样的样本大小或误差是合适的,但在阅读结果时必须记住这些属性。首先,一篇可靠的文章必须没有未经证实的主张。所有的观点都必须得到过去研究的支持。否则,必须明确区分为“意见”,而不是一种观点。其次,仅仅因为一篇文章是著名的研究论文,并不意味着它是一篇使用适当研究方向的论文。这可以通过阅读这些被称为研究论文“全部”和独立判断它们的相关文章来验证。最后,虽然最终的结果可能看起来是最有趣的部分,但它通常会致命地跳过细节研究方法(以及发现错误、偏差等)。理想情况下,我希望所有这些文章都能发表他们的基本研究数据方法。这样,文章就可以实现真正的可信度,每个人都可以自由分析数据和应用研究方法,自己得到结果。Q15解释了EdwardTufte“图表垃圾”的概念。回答者:GregoryPiatetsky图标垃圾是指所有图表和图形视觉元素对图表上表示的信息没有充分理解,或者没有引起观众的注意。1983年,EdwardTufte在他的书《定量信息的视觉显示》中提出了图标垃圾的术语。图15所示。Tufte写道:“一种无意的Necker错觉,两个平面翻转到前面。一些金字塔隐藏着其他的东西;变量(愚蠢的金字塔堆叠深度)没有标签或规模。“图标垃圾的一个例子是一个更现代的例子,很难理解excel用户画的柱状图,因为“工人”和“起重机”掩盖了它们。这种装饰的问题是,它们迫使读者更难找到数据的含义,而不是必要的。Q16您将如何筛选异常值?如果发现会怎么办?回答者:BhavyaGeethika.筛选异常值的方法有z-scores,modifiedz-score,boxplots,Grubb’stest,Tietjen-Moore测试指数平滑法、Kimber测试指数分布和移动窗口滤波算法。然而,有两种更详细的方法:InterQuartilerangerangerisapointofdatathatliesover1.5IQRsbelowtherstquartile(Q1)orabovethirdquartile(Q3)inagivendataset.High=(Q3) 1.5IQRLow=(Q1)–1.5IQRTukeyMethodItusesinterquartilerangetofilterverylargeorverysmallnumbers.Itispracticallythesamemethodasaboveexceptthatitusestheconceptof“fences”.Thetwovaluesoffencesare:Lowoutliers=Q1–1.5(Q3–Q1)=Q1–1.5(IQR)Highoutliers=Q3 1.5(Q3–Q1)=Q3 1.5(IQR)当你发现异常值时,这个区域外的任何值都是异常值,你不应该在没有定性评估的情况下删除它,因为你改变了数据,使它不再纯粹。在理解和分析的背景下,或者重要的是“为什么问题-为什么异常值与其他数据点不同”,这是非常重要的。在理解和分析的背景下或“为什么问题——为什么异常值不同于其他数据点”至关重要。如果是由于异常值错误,你可能会排除它,但如果它们意味着一个新的趋势、模式或显示一个有价值的深度数据,你应该保留它。Q17如何正确估计极值理论、蒙特卡洛模拟或其他数学统计(或其他)非常罕见事件的可能性?回答者:MatthewMayo.极值理论(EVT)注重罕见的事件和极端,而不是经典的统计方法和集中的平均行为。EVT州有三种极端数据点所需的分布模型,可以随机观察一些地理分布:Gumble,f,和威布尔分布,又称极值分布(EVD)1、2和3分别。EVT的状态,如果你从给定的生成N数据集分布,然后创建一个新的数据集,它只包含N的最大值,它只能准确地描述EVD分布之一:耿贝尔,f,或者威布尔。广义极值分布(GEV),然后,结合3EVT模型和EVD模型的模型。了解模型用于建模数据,我们可以使用模型来适应数据,然后进行评估。一旦发现最佳拟合模型,可以进行分析,包括计算的可能性。什么是Q18推荐引擎?它怎么工作?回答者:GregoryPiatetsky现在熟悉Netflix-“你可能感兴趣的电影”或亚马逊-购买X产品的客户也购买Y的推荐。您可能对电影感兴趣的系统被称为推荐引擎或广泛推荐系统。通常推荐以下两种方式之一:使用基于内容的合作或过滤。构建模型过去的行为(以前购买物品、看电影、评级等)。)基于用户的协同过滤方法,并使用当前和其他用户做出的决定。然后用这个模型来预测(或评级)用户可能感兴趣的项目。基于内容的过滤方法推荐具有类似属性的额外物品。这些方法通常与混合推荐系统相结合。当这两种方法用于两个流行音乐推荐系统时,这是一种比较——Last.fm和PandoraRadio。(以系统推荐条目为例)Last.fm通过观察乐队和个人,定期跟踪用户,比较听其他用户的行为,创建了一首“站”推荐的歌曲。最后一次。fm不会跟踪用户图书馆,但通常由其他有类似兴趣的用户跟踪。该方法充分利用了用户的行为,是一种协同过滤技术。Pandora利用歌曲的属性或艺术家(400年一个子集属性提供的音乐基因工程)设置具有类似属性的“站”,播放音乐。用户的反馈用于提炼结果,排除了用户“不喜欢”特定歌曲的某些属性,以及强调用户“喜欢”歌曲的其他属性。这是一种基于内容的方法。这里有一些很好的介绍IntroductiontorecomendationenginesbyDy
推荐阅读
- 2021标准化管理信息系统排行
在这个高速发展的二十一世纪,各个方面都需要取得标准化,并且针对性的对某一方面进行系统性的标准化管理,以此促进某一方面的高速发展。那么在这里我们就来说说最受欢迎的2021标准化管理信息系统排行。 一:PageAdmin标准化管理信息系统 Pa…查看详情
- 【免费建设网站哪家好】这些免费建站系统可供参考
互联网时代,网站是普及化的商业工具,但不是所有企业都有必要选择高端网站,根据企业情况和网站用途,非市场竞争或企业发展用途的,临时性网站可以选择自主建站或免费建站,成本低且建站速度快。那么,免费建设网站哪家好呢?本文整理了一些口碑评价比较靠前…查看详情
- 怎样自己制作一个小程序
怎么做小程序?1、下载“微信开发者工具”,进行安装。 2、双击打开,扫码登录。 3、登录之后选择小程序。 4、然后选择添加项目。 5、填写“AppID”,项目名称和目录,AppID在你登录微信小程序平台后,在设置里面会有。 6、填…查看详情
- 代运营收费模式 | 虽说没有收费标准,但通常是这三种收费模式
随着科学技术和计算机网络技术的发展,出现了电子商务这一新兴的商务手段,并且越来越多的企业和部门开始重视和开发电子商务,加上我国庞大消费消费群体,我国电商经济发展迅速。在这样的情况下,我国网店的数量也在不断增加,选择网店托管的网店也是越来越多…查看详情
- idea如何配置maven
idea如何导入本地的maven项目?1、首先打开IntelliJIDEA,启动的一般可能会较慢,需等待一会,如图所示。 2、然后点击左上角的“file”,可以进行一些基本功能的设置,如图所示。 3、点击file后,选择其中的“…查看详情
- 比较好用的办公软件有哪些
在办公场景中,有许多优秀的办公软件可帮助提高工作效率、促进团队协作和管理任务。以下是一些比较好用的办公软件:1. Microsoft Office:Microsoft Office 套件是最常见且广泛使用的办公软件之一。它包括Word、Ex…查看详情
- 如何做网店运营推广?这三点是基本要素
随着互联网的不断发展,开网店不再是一个陌生的行业。但对于一些刚刚进入开网店行业的初出茅庐的新人来说,如何做好网店的运营仍然是一个很大的疑问。实际上,所谓的网店就是传统线下业务的电子化。网店运营推广就是将线下业务转移到互联网上进行运营。那么如…查看详情
- 非典时期的马云们,如何在绝境中另辟蹊径?
随着现阶段疫情的发展,中小企业复工的延后,生意的停滞,固定成本的压力等让中小企业主焦虑不安,从担心疫情的扩散逐步转化到生意怎么办。 而十几年前,阿里,360,顺丰等都是中小企业。突如其来的“非典”让当时这些小企业焦头烂额,他们仔细分析环境中…查看详情
- 两大技巧,增强你的企业网站建设效果
互联网渐渐渗透到工作生活中的各个场景,当我们需要某种商品或服务时,会习惯到网络上进行搜索。如果现代企业还没有互联网展示窗口,用户通过搜索找不到你,那么终将被时代所淘汰。因此,企业网站建设愈发流行,几乎各个企业都拥有了自己的企业网站。而企业网…查看详情
- 学生上网课用什么软件 网课软件排行榜
最近几年疫情情况下大家都是在家里上网课的,现在市面上也有很多的网课软件,下面小编就给大家来详细介绍一下学生上网课用什么软件 网课软件排行榜这一块的内容,希望能帮助到大家。 学生上网课用什么软件 1、《钉钉》 它是由阿里巴巴集团开发…查看详情
- 建一个网站需要哪些技术 建网站所需的技术
曾几何时建设网站只需要一种语言(技术):HTML。但随着web的发展与完善,新的技术层出不穷。虽然只使用HTML也可以建立最简单的网页,但为了使网站更加具有吸引力,更加高效,我们至少要学会下面一些常用网站设计的技术。下面万商云集小编就给…查看详情
- 华为、美的等领先企业的增长奇迹是如何发生的?
1987年,华为公司成立;2018年,员工增长到18万人,年净利润近600亿,成为拥有运营商、企业和消费者三大业务的全球行业领先者。1980年,美的进入电风扇领域;2018年,营业收入2618亿元,净利润202亿元,员工总人数约10万人,成…查看详情
- 性能跑分第一的安卓模拟器-逍遥安卓模拟器
玩大型电脑游戏,大家要的就是流畅,喜欢玩游戏的人最讨厌玩着玩着就出现卡顿的情况,那么,除了有一台好的电脑之外,还可以下载一个软件,这样能保证玩游戏不卡顿,那么,大家可以看一下逍遥安卓模拟器的介绍。1.逍遥电脑模拟器基本功能适用无线手柄和最完…查看详情
- 垃圾清理软件 好用的垃圾清理软件
移动互联网时代,电脑里装的软件越来越多,电脑大神还好,要是电脑小白,捆绑下载的垃圾软件和大量的系统垃圾堆在一起,不仅系统运行苦不堪言,而且各种垃圾广告随之而来。下面万商云集小编就给大家介绍几款好用的垃圾清理软件,希望大家能喜欢, 而且…查看详情
- 如何设计一个简单的数据库系统
设计一个管理信息系统?管理信息系统设计的简要过程如下: 1.明确系统需求。通常以系统“需求说明书”的方式详细规定和说明对信息系统的使用功能要求; 2.根据需求说明书的要求,明确对系统软件和硬件的需求。软件系统通常用“软件需求”或者“软件…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00
















































注册有好礼



