服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

数据科学工程师容易犯的10个错误

2020-12-28 11:10:09 阅读(163 评论(0)

无论是初学者还是有经验的工程师,都会或多或少犯一些错误,这里总结了一些常见的错误,你可以参考。数据科学家是“比任何软件工程师都更擅长统计,比任何统计学家都更擅长软件工程”的人。许多数据科学家都有统计背景,对软件工程几乎没有经验。我是一名高级数据科学家,在stackoverflow的python编程中排名前1%,与许多(初级)数据科学家一起工作。以下是我经常看到的10个常见错误。1.不要引用共享代码中需要代码和数据的数据数据科学。因此,他们需要访问数据,才能让别人复制你的结果。它看起来很简单,但很多人忘记了与他们的代码共享数据。解决方案:使用d6tpipe与您的代码共享数据文件,或上传到S3/web/谷歌驱动器等,或将其保存到数据库中,以便接收方检索文件(但不要将其添加到git中,请参阅以下内容)。2.*编码的无效路径类似于错误1。如果您*编码其他人无法访问的路径,它们将无法操作您的代码,并且必须在许多地方手动更改路径。解决方案:使用相对路径、全局路径配置变量或d6tpipe使数据易于访问。3.代码和数据混合在一起。既然数据科学代码需要数据,为什么不把它转移到同一个目录呢?在这样做的时候,还要保存图片、报告和其它垃圾。哦,真乱!解决方案:将目录组织成数据、报告、代码等类别。参见cookiecuterdatascience或d6tflowprojectemplates,并使用1中提到的工具存储和共享数据。4.将数据和源代码一起提交给Git,大多数人管理代码的版本。将数据文件添加到版本控制中,以便共享数据。对于非常小的文件,这是可以的,但git并没有优化数据,尤其是大型文件。gitadddata.csv解决方案:使用1中提到的工具存储和共享数据。如果您真的想控制版本的数据,请参见d6tpipee、存储DVC和Git大文件。5.有足够的讨论写方程而不是DAGS的数据。让我们谈谈实际代码!数据科学代码主要由一系列线性运行函数组成,因为在学习编写代码时,首先要学习的是函数。这将导致一些问题。请参考机器学习代码可能不好的四个原因。解决方案:将数据科学代码编写成一组任务,并在这些任务之间建立依赖关系,而不是使用线性链接函数。使用d6tflow或airflow。6.像函数一样使用for循环,for循环是你在学习编码时需要学习的第一件事。它们很容易理解,但它们又慢又冗长,通常意味着你不知道向量化的替代方案。解决方案:Numpy、scipy和panda为您认为可能需要循环的大多数内容提供了向量化函数。当数据、参数或用户输入发生变化时,您的代码可能会中断,有时您不会注意到。这可能会导致错误的输出。如果有人根据你的输出做出决定,错误的数据会导致错误的决定!解决方案:使用assert语句检查数据质量。pandas有平等测试,d6tstack可以检查数据输入,d6tjoin可以连接数据。数据检查的代码示例:8.我理解不写注释。你急于做分析。你把事情拼凑起来,让你的客户或老板知道结果。一周后,他们回来说“你能修改xyz吗?”或者“你能更新吗?”。你看着你的代码,却不记得你为什么这么做了。现在想象一下,如果有人来操作它。解决方案:额外的时间,即使在你交付分析后,也要记录你所做的事情。你会感谢自己,别人会更感谢你!你会看起来很专业!9.将数据存储为csv或pickle,然后返回数据,毕竟是数据科学。就像函数和for循环一样,csv和pickle文件也经常使用,但它们实际上并不好。csv不包括模式,所以每个人都必须重新分析数字和日期。pickle可以解决这个问题,但只能在python中工作,不能压缩。这两种格式都不适合存储大型数据集。解决方案:使用parquet或其他带有数据模式的二进制数据格式,最好是压缩数据格式。d6tflow将自动任务的数据输出保存为parquet格式,因此您不必处理它。10.使用jupyternotebooks让我们以一个有争议的结论结束:jupyternotebooks和csv一样常见。许多人使用它们。这并不能让他们变得更好。jupyternotebooks助长了上述许多不良软件工程习惯,特别是:您可能希望将所有文件存储在目录中,您编写的代码自上而下运行,而不是DAGS。您不需要模块化代码来调试代码和输出。您不能很好地控制文件中的版本。使用jupyternotebooks很容易开始,但很难扩展规模。

内容来源:AI公园,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

大的知识产权公司丨业务范围较广 重点在诉讼和交易

知识产权市场上大的知识产权公司数量比较多,统一的特点都是自身业务范围覆盖比较广,知名公司在知识产权诉讼和交易方面都比较出名,且有所侧重,部分公司甚至采取了联盟形态,以此增强公司业务粘性。下面为大家列出5家大的知识产权公司,以作参考。图片来源…查看详情

从crm系统排名看,哪家是最优选择

在现今产品已无太大差异的市场中,企业都已经在靠着谁的服务更好来提升企业核心竞争力,crm系统的出现便正好满足了企业的需求。今天小万就来聊聊市场中都有哪些crm系统品牌,crm系统排名不分先后。图片来自网络crm系统排名顺序随机,没有哪个更好…查看详情

运营主要做什么

  运营指的是一种对企业进行品牌建设、产品推广与用户服务的全过程,通常需要通过网络渠道进行整体规划、组织、执行、监督等过程。运营工作是一种复杂的工作,需要运营人员具备一定的综合能力,包括市场分析、产品设计、策略制定、执行推广、客户服务等能力…查看详情

建设高质量反向链接的21个策略

任何一家企业在建立网站的时候,都希望能够带来很好的效果,也能够吸引更多的客户,所以说为了能够更好的推广,做完网站建设之后,都会制定一些反向链接,但是在建设高质量法师链接的时候,也是应该要遵循一些策略问题的,这样才会让网站增加流量…查看详情

京东商城和淘宝网的东西哪个好

淘宝和京东买的货哪个质量好?京东比较好。 淘宝上分为普通商家和天猫商家,一般天猫大多都是品牌旗舰店,在品质上还是值得信赖的,但是普通商家的质量就有些参差不齐了,需要买家自己进行判断选择,如果选择的好,在淘宝的购物体验也是非常棒的,但是如果…查看详情

响应式网站建设的3个优点

在最近几年响应式网站建设是比较流行的,尤其是很多比较知名或者是大型的网站,在建设的时候都会采用这种建站模式。响应式建站模式虽然说价格要比普通的网站建设模式价格高很多,但是采用这种模式建站优点确实很多的。那么响应式网站建设都有哪些…查看详情

php语言介绍

什么是嵌入式linux脚本描述语言php?很多有标准shellsh,其他还有bash,csh,ksh,zsh等等另外还有awk,perl,python甚至php都可以作为脚本只要有相应的命令解释器就行php弱语言的特点?1、PHP独特的语法…查看详情

打卡软件哪个好用?这些打卡软件不错

公司在上班的时候为了能够更好的统计考勤,所以说在上班正常时间的时候都会进行打卡设置打卡上班打卡下班,这样相对来说管理起来也比较容易,但是也应该要选择一个比较好的软件进行管理。那么打卡软件哪个好用?下面就是给大家介绍的几款比较不错…查看详情

广告带动销售 网络广告如何推广更合理?

网络广告如何推广?许多中小企业对网络营销,往往会简单的认为在网络上宣传产品广告就是网络营销。特别是一些小企业的经营者,在进行网络营销的时候,都会出现心态浮躁、简单片面的理解。现在市场上许多网络推广方式,如百度谷歌关键字竞价排名、门户网站的广…查看详情

微信小程序怎么制作自己的小程序

  微信小程序是一种基于微信平台的小型应用程序。与传统的手机应用程序相比,微信小程序具有开发周期短、体积小、运行速度快等特点。微信小程序还能够在微信公众号中直接访问,用户不需要额外下载和安装应用程序,可以一键跳转进入小程序使用。下面,就让我…查看详情

专利权人的权利和义务包括哪些?

  专利权人享有怎么样的权利呢,专利权人的义务又是什么样的,相关的法律知识是如何规定的呢。很多人对专利权人的权利和义务这一块的内容都不知道,对这块不是很清楚,下面*就给大家来详细介绍一下专利权人的权利和义务包括哪些?这一块的相关内容。专利权…查看详情

平面设计软件哪些比较好用?好用的平面设计软件介绍

在进行图片设计的时候就应该要用到一些设计软件,其实常用的设计软件也是比较多的,选择好用的才是关键。那么平面设计软件哪些比较好用?接下来就给大家介绍几款比较好用的平面设计软件,有了这些软件之后就可以进行更好的图片设计,能够让图片呈…查看详情

手机号码定位寻人系统有哪些,手机号码定位寻人系统软件特色介绍

手机号码定位,相信大家都了解过,有了这款软件就能够更好的进行号码定位,找人能够比较方便,还能够防走失,能够准确的确定对方的位置。但是现在的手机号码定位寻人系统也是比较多的,应该要找到比较可靠的,准确性比较高的系统来进行安装,那么…查看详情

常见的顶级域名有哪些?

  Top-leveldomai1,orTLDs,arethehighestlevelofdomainnameexte1io1 thatcanberegistered.Theyarelocatedtotherightofthefinald…查看详情

vb编程可以做什么

vb能做什么程序?VB可以做数据库前台开发,也可做后台,还可以做很多应用软件。一般开发游戏很少用到VB。VB使用了可以简单建立应用程序的GUI系统,但是又可以开发相当复杂的程序VB能做些什么?VB能做的东西是数不清的,关键看你想学其中的哪几…查看详情

最新文章