服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

数据科学工程师容易犯的10个错误

2020-12-28 11:10:09 阅读(161 评论(0)

无论是初学者还是有经验的工程师,都会或多或少犯一些错误,这里总结了一些常见的错误,你可以参考。数据科学家是“比任何软件工程师都更擅长统计,比任何统计学家都更擅长软件工程”的人。许多数据科学家都有统计背景,对软件工程几乎没有经验。我是一名高级数据科学家,在stackoverflow的python编程中排名前1%,与许多(初级)数据科学家一起工作。以下是我经常看到的10个常见错误。1.不要引用共享代码中需要代码和数据的数据数据科学。因此,他们需要访问数据,才能让别人复制你的结果。它看起来很简单,但很多人忘记了与他们的代码共享数据。解决方案:使用d6tpipe与您的代码共享数据文件,或上传到S3/web/谷歌驱动器等,或将其保存到数据库中,以便接收方检索文件(但不要将其添加到git中,请参阅以下内容)。2.*编码的无效路径类似于错误1。如果您*编码其他人无法访问的路径,它们将无法操作您的代码,并且必须在许多地方手动更改路径。解决方案:使用相对路径、全局路径配置变量或d6tpipe使数据易于访问。3.代码和数据混合在一起。既然数据科学代码需要数据,为什么不把它转移到同一个目录呢?在这样做的时候,还要保存图片、报告和其它垃圾。哦,真乱!解决方案:将目录组织成数据、报告、代码等类别。参见cookiecuterdatascience或d6tflowprojectemplates,并使用1中提到的工具存储和共享数据。4.将数据和源代码一起提交给Git,大多数人管理代码的版本。将数据文件添加到版本控制中,以便共享数据。对于非常小的文件,这是可以的,但git并没有优化数据,尤其是大型文件。gitadddata.csv解决方案:使用1中提到的工具存储和共享数据。如果您真的想控制版本的数据,请参见d6tpipee、存储DVC和Git大文件。5.有足够的讨论写方程而不是DAGS的数据。让我们谈谈实际代码!数据科学代码主要由一系列线性运行函数组成,因为在学习编写代码时,首先要学习的是函数。这将导致一些问题。请参考机器学习代码可能不好的四个原因。解决方案:将数据科学代码编写成一组任务,并在这些任务之间建立依赖关系,而不是使用线性链接函数。使用d6tflow或airflow。6.像函数一样使用for循环,for循环是你在学习编码时需要学习的第一件事。它们很容易理解,但它们又慢又冗长,通常意味着你不知道向量化的替代方案。解决方案:Numpy、scipy和panda为您认为可能需要循环的大多数内容提供了向量化函数。当数据、参数或用户输入发生变化时,您的代码可能会中断,有时您不会注意到。这可能会导致错误的输出。如果有人根据你的输出做出决定,错误的数据会导致错误的决定!解决方案:使用assert语句检查数据质量。pandas有平等测试,d6tstack可以检查数据输入,d6tjoin可以连接数据。数据检查的代码示例:8.我理解不写注释。你急于做分析。你把事情拼凑起来,让你的客户或老板知道结果。一周后,他们回来说“你能修改xyz吗?”或者“你能更新吗?”。你看着你的代码,却不记得你为什么这么做了。现在想象一下,如果有人来操作它。解决方案:额外的时间,即使在你交付分析后,也要记录你所做的事情。你会感谢自己,别人会更感谢你!你会看起来很专业!9.将数据存储为csv或pickle,然后返回数据,毕竟是数据科学。就像函数和for循环一样,csv和pickle文件也经常使用,但它们实际上并不好。csv不包括模式,所以每个人都必须重新分析数字和日期。pickle可以解决这个问题,但只能在python中工作,不能压缩。这两种格式都不适合存储大型数据集。解决方案:使用parquet或其他带有数据模式的二进制数据格式,最好是压缩数据格式。d6tflow将自动任务的数据输出保存为parquet格式,因此您不必处理它。10.使用jupyternotebooks让我们以一个有争议的结论结束:jupyternotebooks和csv一样常见。许多人使用它们。这并不能让他们变得更好。jupyternotebooks助长了上述许多不良软件工程习惯,特别是:您可能希望将所有文件存储在目录中,您编写的代码自上而下运行,而不是DAGS。您不需要模块化代码来调试代码和输出。您不能很好地控制文件中的版本。使用jupyternotebooks很容易开始,但很难扩展规模。

内容来源:AI公园,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

可以电音制作的软件有哪些 可以电音制作的软件排行榜

  最近几年电音特别流行,而且现在很多的软件都是可以制作电音的,下面小编就给大家来介绍一下可以电音制作的软件有哪些 可以电音制作的软件排行榜这一块的相关内容,希望能帮助到大家。  可以电音制作的软件排行榜  1、《DJ打碟:电音DJ》 …查看详情

重镑出击!拍账王于万亿市场之中,打造全国领先的去中心化超级AI企服平台

近年来,“互联网+”推动着互联网与各行各业的融合,对传统行业也带来了很大的影响。时代的变化与改革,也迎来了“互联网+财税”的发展新趋势。 根据国家市场监督管理总局数据统计,截止2020年9月末,全国实有各类市场主体1.3亿户,国内企业主体总…查看详情

商标注册查询的必要性及查询方法

商标注册查询是企业或个人进行商标注册的前提步骤,需要对查询的商标备案登记信息数据进行分析,来判断自己需要注册的商标与已经注册的商标的近似程度,同一个类别是不允许相同或极近相同的商标同时进行注册的。图片来源于网络商标注册查询的结果并不具备法律…查看详情

2022年六大广告牌制作软件

如果想要自己的东西卖出去就需要打广告,打广告就需要好看的背景来制作,所以这就显得广告牌有多么重要,今天我就来给大家介绍一下2052年六大广告牌制作软件,只要你下载了其中一款软件,你以后的广告牌都被它承包了。 1.广告牌生成…查看详情

实木门十大品牌 2023实木门品牌排行榜

  随着家居行业的发展,实木门已经成为了现代家居中不可缺少的一部分,不仅美观大方,而且功能齐全,具有很高的使用价值。而如今市面上的实木门品牌琳琅满目,消费者该如何选择呢?下面就为大家介绍实木门十大品牌排行榜,希望能够对大家选购实木门有所帮助…查看详情

2022年亚马逊开店流程及费用

  亚马逊商城是目前全球最大的电商平台,卖家和买家数量都是非常多的。现在仍有不少卖家想到亚马逊商城开店,那么大家首先要了解清楚亚马逊商城开店条件及费用有哪些,这样才能更加顺利的完成亚马逊商城注册。亚马逊开店流程  1、进入亚马逊全球开店官网…查看详情

row函数的使用方法及实例

Excel返回行号函数ROW()和ROWS()使用详解?1、返回行号主要是使用函数row。在单元格里面输入=ROW(),此时函数没有添加任何参数,返回单元格的行号,比如这里的6。sqlrow函数的使用方法?SQLROW函数用于创建一个行值,…查看详情

U盘排行榜前十都有哪些?

对于一些学习平面设计和装修的人来说,U盘是必须要有的东西,因为U盘里面可以放很多东西,我们出门出差的时候不需要带计算机,直接带一个U盘出去就可以了,那么,关于U盘排行榜前十都有哪些呢? 1、闪迪 此款U盘的接头选用USB2.…查看详情

小程序怎么引流到公众号

  如何利用微信公众号为网站引流?  现在不论是做线上还是线下的推广,都应该相互结合。  1、通过多个门店小程序为商城小程序进行本地引流。哪里有门店就在哪里开通附近门店定位引流。或者一个城市或多个城市定位多个门店。  2、小程序支付后关联公…查看详情

版权登记的难度 取决于两个关键影响因素

版权登记的审查环节是采用形式审查,对材料实质内容的审核度并不是特别高,版权登记的难度根据登记作品的类型、原创度和登记方式综合决定的。常规作品的通过率是比较高的,但是特殊作品和软件著作权的难度相对较大。 图片来源于网络◆ 版权登记的难度影响因…查看详情

英文网站运营本质还是与用户沟通,依旧内容至上!

网站运营的本质是流量和转化,英文网站运营不同的一点大多是搜索引擎算法的差别,国内使用较多的是百度、搜狗,英文网站更多的是使用Google。但是,搜索引擎的差别对网站优化影响比较大,对基本的网站运营相对较小。下面就英文网站运营的基础知识进行了…查看详情

分销电商系统适合行业发展空间比较大的中小企业

分销电商系统是当下比较热门的体统类型,受到大量中小企业及个体商家的青睐,起主要的功能就是基于微信社交平台的巨量用户基础,拓展自身产品营销渠道和方式。系统在到达率、精准度和活跃度方面具有较高优势,适合行业发展空间比较大的中小企业选择。图片来源…查看详情

专业网站建设,警惕“专业”两大坑

寻求第三方合作进行专业网站建设是现代企业建站的主流趋势。市面上,号称专业网站建设的服务企业涵盖了设计行业、互联网行业,甚至一些资深平台,不同领域对网站建设擅长之处各异,那么到底何谓专业网站建设? 在我看来,企业选择专业网站建设服务时,要警惕…查看详情

xor是什么运算指令?

xor是什么运算指令?XOR是异或运算指令。 异或(xor)是一个数学运算符。它应用于逻辑运算。异或的数学符号为“⊕”,计算机符号为“xor”。 譬如,异或可逆运算。1xor1=0,0xor0=0,1xor0=1,0xor1=1。axo…查看详情

抽奖系统哪个好 好用的抽奖软件推荐

随着科技的发展和社会的进步,人们的生活质量大大提高,人们对于精神生活的要求也越来越高,为了满足人们的生活需求和生活乐趣,各种各样的抽奖系统应运而生,下面我给大家介绍六款简单实用的抽奖系统。 1、全能抽奖软件 全能抽奖系统…查看详情

最新文章