“数据科学”的演化及应用
2021-01-06 13:50:31 阅读(165) 评论(0)
数据科学家如何变得性感的故事,大致就是统计学作为一门成熟学科如何与新兴学科的计算机科学发生关系的故事。“数据科学”这个术语出现较晚,用来指代一个需要解释大量数据的职业。但数据的解读历史悠久,多年来一直被科学家、统计学家、图书馆员、计算机科学家和其他人讨论。以下时间线可以追溯到“数据科学”一词的演变,以及它的应用、定义它的尝试和一些相关术语。1962年Johnw.Tukey在数据分析的未来(”TheFutureofDataAnalysis)写道:“长期以来,我以为自己是统计学家,对从特例中得到关于整体的推断感兴趣。但当我目睹了数学统计学的发展时,我产生了猜测和怀疑。。。我开始觉得我的基本兴趣在于数据分析。。。数据分析和一些相关的统计学必须承担更多的科学特征,而不是数学特征。。。数据分析本质上是一门经验科学。。。预设程序的电子计算机。。它有多重要?在许多情况下,答案令人惊讶:重要但不重要,计算机在其他情况下无疑是至关重要的。1947年,Tukey创造了“比特”(bit)“这个术语在1948年被Claudeshanonused用于“传播数学理论”(”AMathematicalTheoryofCommunications)一文中。Tukey于1977年出版了《探索性数据分析》(ExploratoryDataAnalysis),他在书中提出,我们应该更加*使用数据来提出哪些假设需要测试的建议,以及探索性数据分析和论证性数据分析“能够并驾齐驱”。1974年,Peternaur在瑞典和美国出版了《计算机方法简要调查》(ConciseSurveyofComputerMethods)。这是一项关于当时使用的数据处理方法的调查,包括许多应用程序。本书遵循国际信息处理联合会的数据处理概念和术语指南(IFIPGuidetoConceptsandTermsinDataProcessing)“数据”的定义:“(数据是)必须能够以某种形式传播或操作事实或想法的标准化表现。根据这本书的前言,国际信息处理联合会于1968年展示了一份题为“数据学:数据处理的科学及其在教育中的地位”的课程计划。Naur为数据科学提供了以下定义:“数据形成后,处理数据的科学。数据与它所代表的东西之间的关系属于其他领域和科学范畴。1977年,国际统计联合会(TheInternationalAssociationforStatisticalComputing(IASC))作为国际统计研究院(ISI)成立了一个分支。“国际统计联合会的任务是将传统的统计方法、现代计算机技术与各领域专家的知识联系起来,将数据转化为信息和知识。“GregoryPiatetsky-Shapiro于1989年组织并主持了第一次数据库知识发现(KnowledgeDiscoveryinDatabases(KDD))研讨会。1995年成为国际计算机年会知识发现和数据挖掘的SIGKDD会议。1994年9月,《商业周刊》发表了一篇关于“数据库营销”的商业报道:“企业收集了大量关于你的信息,并将这些知识提炼成营销信息,准确地瞄准你。。。20世纪80年代扫描码器的繁荣在广泛的失望中结束:许多公司被总数据淹没,但无法获得有用的信息。。。然而,许多公司认为,他们别无选择,只能勇敢地站在数据库营销的前线。1996年国际分类协会联盟(InternationalFederationofClassificationSocieties(IFCS))双年会在日本神户举行。“数据科学”一词首次包含在会议标题中(“数据科学、分类等相关方法”)。联盟由六个国家/语言分类组织于1985年成立,其中一个是“分类协会”(TheClassificationSociety)成立于1964年。这些分类协会在其出版物中大量使用数据分析、数据挖掘、数据科学等术语。UsamaFayy1996年、GregoryPiatetsky-Shapiro、Padhraicsmyth出版了《从数据挖掘到数据库的知识发现》(FromDataMiningtoKnowledgeDiscoveryinDatabases”)。他们写道:“在过去,从数据中寻找有用的模式被赋予了许多名称,包括数据挖掘、知识提取、信息发现、信息收获、数据考古学和数据模式处理。KDD(数据库中的知识发现)是指从数据中获取有用知识的整个过程,而数据挖掘是指具体的环节之一。数据挖掘是利用特定算法从数据中提取的模式...KDD过程中的其他步骤,如数据准备、数据选择、数据清洗、与合适的已知识相结合、对挖掘结果的正确解读,对于确保从数据中获得有用的知识非常重要。数据挖掘方法的盲目应用(统计文献中被批评为“数据挖泥”(datadredging))可能是危险的,会得到无用的发现和无效的模式。”1997年C.F.密歇根大学统计系HeffWu教授(现在在乔治亚理工大学工作).C.在就职典礼上,Carver主席提出统计学应重命名为数据科学,统计学家应重命名为数据科学家。1997年《数据挖掘与知识发现》(DataMiningandKnowledgeDiscovery)期刊发行。这两个术语的顺序意味着“数据挖掘”地位的上升,并成为描述“从大数据库中提取信息”的一种更流行的方式。1999年12月,沃顿商学院Knowledge@Wharton的《从数据中挖掘知识的金块》引用了JacobZahavi的说法:“传统的统计方法在小数据集上工作得很好。但今天的数据库有数百万行和大量列……可扩展性已经成为数据挖掘的一个大问题。另一个技术挑战是开发一个模型,可以更好地分析数据,发现非线性关系和元素之间的联系……网站决策可能需要特殊的数据挖掘工具。WilliamS2001年.Cleveland出版了《数据科学:扩展统计技术领域的行动计划》(“DataScience:AnActionPlanforExpandingtheTechnicalAreasoftheFieldofStatistics”)。该计划“扩大统计领域技术工作的主要领域。雄心勃勃的计划包含了本质的变化。变化后的领域被称为“数据科学”。“Cleveland在计算机科学和当代数据挖掘工作中定位了这一新领域:“……数据分析师的收入有限。由于计算机科学家思考和分析数据的方法有限,统计学家对计算环境的知识有限。知识的融合将带来巨大的生产力创新。这意味着统计学家应该更加*知识的计算,就像过去数据科学*数学一样。数据科学系应该由致力于改进数据计算的成员和与计算机科学家合作的成员组成。2001年,LeoBreiman出版了《统计建模:两种文化》(“StatisticalModeling:TheTwoCultures”):在使用统计模型从数据中提取结论的过程中,有两种文化。假设数据是由特定的分布模型生成的。另一种是使用算法模型,并将数据结构视为未知。统计学界普遍致力于只使用数据模型。这种投资产生了毫无意义的理论和可疑的结论,使统计学家无法触及许多实际问题。在理论和实践中,算法模型在统计学之外发展迅速。它不仅可以应用于庞大而复杂的数据集,还可以在小数据集上建立大量准确信息的模型。如果我们的目标是使用数据来解决问题,那么我们需要摆脱对纯基于数据模型的依赖,并使用更多样化的工具。”
推荐阅读
- 各类商标注册注册大全 进来了解一下
商标是标明商品或服务来源的标志,是将自己的品牌、商品或服务与他人的品牌、商品和服务区分开的标志,其覆盖范围包括文字、图形、字母、数字、声音、三维标志和颜色及其随意组合,是对自我品牌、商品、服务的一种法律保护手段,能有效防止品牌被他人恶意盗用…查看详情
- 视频和图片合并成一个视频的软件有哪些?具体推荐如下介绍
现在很多人都特别喜欢制作小视频,而且还会拍一些精美的图片,这样视频跟图片结合在一起,就成了一个比较不错的短片。但是针对视频和图片合成,很多人并不知道应该要选择什么样的软件来使用,其实有很多的软件可以选择,选择对了软件就会带来很好…查看详情
- 想要了解加密软件哪个好,可以看详细的推荐
因为现在的人越来越注重自己的信息保护,所以很多人在工作以及聊天的时候不放心,怕怕不法之人监测自己的手机后台,所以很多人都会考虑在手机当中安装一个加密软件,具体来说加密软件哪个好呢? 1、易通文件夹锁软件 这个加密软件其实在…查看详情
- 编程语言排行榜,可以参考一下
在进行程序设计的时候,选择一种编程语言也是必要的,因为属于不能缺少的设计工具,编程语言也是可以让计算机充分接受的,并且具有相关语法规定的语言。而随着生活中越来越多的计算机使用,以及技术方面的进步,现在的编程语言自然也是人们不可忽…查看详情
- 小程序开发公司哪些比较靠前?小程序开发口碑好的公司介绍
小程序的开发对一些企业的发展也是非常重要的,因为现在是一个使用小程序比较火爆的时代,不少的商户以及企业都拥有自己的小程序,而且利用小程序能够带来更多的客流量,也能够将自己的产品更好的进行推广。所以说很多企业也都想要开发小程序,但…查看详情
- 为什么越来越多企业开始布局小程序?
继万商云集小程序斩获“2019年度中国IT互联网产品创新大奖”以来,最新一批上线万商云集小程序的30+企业新鲜出炉啦~简阳XX生态农业、北京XX科技、西安XX劳务、北京XX文化发展、陕西XX商贸、北京XX教育、西安XX科技环保、陕西XX建筑…查看详情
- 知识产权专利申请流程是什么样的
知识产权专利申请流程是指在保护发明创造的知识产权方面,从申请到授权的一系列步骤和程序。以下是一个常见的知识产权专利申请流程的概述: 1.发明创造:首先,申请人需要进行技术研究和创新活动,发现或开发出新的发明性创造。这可以是一项新的产品、工艺…查看详情
- windows10命令提示符在哪个文件夹
Windows10是目前实用广泛的操作系统之一,它具有许多强大的功能,包括与命令提示符相关的功能。Windows10 命令提示符(也称为控制台)是一种系统资源,它提供了许多有用的功能,比如查看文件,访问网络资源以及运行计算机上的各种应…查看详情
- 二手车平台哪个好 十大二手车品牌
随着消费习惯的改变,无论哪个消费阶层的潜在车主都很好,二手车往往会带来更具成本效益的体验。然而,二手车市场的深度足以说服许多感兴趣的车主;下面万商云集*给大家来详细介绍一下二手车平台哪个好 十大二手车品牌这一块的内容,希望能帮助到大家啊…查看详情
- 电商快递如何实现?电商快递的原则和优势分析
如今,网络越来越发达,为提升企业寄收件效率和降低物流管理成本,电商与快递的合作必不可少,接下来*就把调查到的关于电商快递合作的要点做如下介绍。 一、电商快递的原则: 1、成本原则,在自己销量不是很大的情况,你选择的快递,最好是性价比比较高的…查看详情
- 3D建模软件哪个好用 3D建模软件排行榜
3D建模算是很多的行业都会使用到的一个技能和工作,现在市面上也有很多的这一种软件,下面*就给大家来详细介绍一下3D建模软件哪个好用 3D建模软件排行榜这一块的内容。 3D建模软件排行榜 1、《CAD建模号》 一款在手机上就可以进…查看详情
- 地名商标注册需要什么材料 地名商标注册所需材料
现在地名注册商标也是很常见的了,很多人对地名都申请商标保护,下面万商云集*给大家介绍下地名商标注册需要什么材料。 一、地名商标注册需要什么材料 1、地名商标注册需要的材料: (1)以企业名称申请注册的,需提供营业执照复印件,并需在营业…查看详情
- iframe框架使用方法
iframe子页面的js和css父页面怎么调用?找到iframe里面js和css的引用文件路径在父页面里面重新引用下,框架里面引用都是独立的不能共通,框架的意义也在此了否则也就没必要存在了。用iframe嵌套页面时四周的白边如何去掉?可以设…查看详情
- 免费好用的文件加密软件有哪些 文件加密软件排行榜
当我们的文件中有着重要的信息,为了保护自己的隐私,不想让他人知道时应该怎么做呢?文件加密软件能够很好的能够很好地对文件进行保护防止信息泄露,那么在众多的文件加密软件面前该如何做出选择呢?下面*就给大家来详细介绍一下免费好用的文件加密软件…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
邮箱:zjb@iwanshang.com
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的AI增效平台

400-0033-166
8:30-18:00















































注册有好礼



