服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

分析案例丨朝阳医院在2018年里的销售情况

2020-12-28 11:18:47 阅读(179 评论(0)

1、数据分析的目的数据分析是指通过适当的统计分析方法对收集到的大量数据进行分析,提取有用的信息,形成结论,并对数据进行详细研究和总结的过程。在本文中,假设以2018年朝阳医院的销售数据为例,目的是了解2018年朝阳医院的销售情况,需要了解月平均消费次数、月平均消费金额、客户单价、消费趋势等几个业务指标。2、数据分析的基本过程包括:数据获取、数据清洗、模型构建、数据可视化和消费趋势。2.1获取数据Excel中数据部分的截图:先导入包,再读取文件,读取时用object读取,防止一些数据无法读取:In[1]:importpandasaspdIn[2]:#读取数据(最好使用object类型) ...:data=pd.read_excel("2018年朝阳医院销售数据.xlsx",dtype="object")In[3]:#修改为DataFrame格式 ...:dataDF=pd.DataFrame(data)In[4]:dataDF.head()Out[4]:       购药时间     社保卡号  商品编码  销售商品名称的数量 应收金额 实收金额0 2018-01-01星期五   001616528 236701 强VC银翘片  6 82.8  691 2018-01-02星期六   001616528 236701 清热解毒口服液  1  28 24.642 2018-01-06星期三  0012602828 236701   感康  2 16.8  153 2018-01-11星期一 0010070343428 236701  三九感冒灵  1  28  284 2018-01-15星期五  00101554328 236701  三九感冒灵  8 224  208查看In[5]这些基本信息:#查看数据的形状,即几行几列 ...:dataDF.shapeOut[5]:(6578,7)In[6]:#查看索引 ...:dataDF.indexOut[6]:RangeIndex(start=0,stop=6578,step=1)In[7]:#查看每列列表头的内容 ...:dataDF.columnsOut[7]:Index(['购药时间','社保卡号','商品编码','商品名称','销售量','应收金额','实收金额'],dtype='object')In[8]:#查看每列数据统计数量 ...:dataDF.count()Out[8]:购药时间  6576社保卡号  6576商品编码  6577商品名称  6577销售数量  6577应收金额  6577实收金额  6577dtype:int64共有6578行7列数据,但“药品购买时间”和“社会保障卡号”两列只有6576个数据,“商品代码”到“实收金额”这两列只有6577个数据,这意味着数据缺失值,可以推断数据缺失值,除了“药品购买时间”和“社会保障卡号”两列各有一个缺失数据,这些缺失数据需要在以下步骤中进一步处理。2.2数据清洗数据清洗过程包括:选择子集、列名重命名、数据处理缺失、数据类型转换、数据排序及异常值处理2.2.1在我们获得的数据中选择子集,数据量可能非常大,不是每个列都有价值需要分析。此时,我们需要从整个数据中选择合适的子集进行分析,以便从数据中获得最大的价值。在这种情况下,不需要选择子集,这一步暂时可以忽略。2.2.在数据分析过程中,一些列和数据容易混淆或模棱两可,不利于数据分析。此时,需要将列替换为易于理解的名称,可以通过rename函数实现:In[9]:#使用rename函数,把"购药时间"改为"销售时间" ...:dataDF.rename(columns={"购药时间":"销售时间"},inplace=True) ...:dataDF.columnsOut[9]: Index(['销售时间', '社保卡号', '商品编码', '商品名称', '销售量', '应收金额', '实收金额'], dtype='object')2.2.在缺失数据处理获得的数据中很可能存在缺失值,通过查看基本信息,可以推断“购药时间”和“社保卡号”存在缺失值。如果不处理这些缺失值,会干扰以下数据分析结果。缺失数据的常用处理方法是删除包含缺失数据的记录或使用算法来补充缺失数据。为方便起见,dropna函数直接用于删除缺失的数据,具体如下:In[10]:#在删除缺失值之前  ...:dataDF.shapeOut[10]:(6578,7)In[11]:#使用dropna函数删除缺失值  ...:dataDF=dataDF.dropna()In[12]:#删除缺失值后  ...:dataDF.shapeOut[12]:(6575,7)2.2.在导入数据时,4数据类型的转换是为了防止导入不进来,所有数据都是object类型,但在实际数据分析过程中,“销售数量”、“应收金额”和“实收金额”需要浮点类型(float)数据、“销售时间”需要改为时间格式,因此需要转换数据类型。可以将astype()函数转换为浮点数据:In[13]:#将字符串转换为浮点数据  ...:dataDF["销售数量"]=dataDF["销售数量"].astype("f8")  ...:dataDF["应收金额"]=dataDF["应收金额"].astype("f8")  ...:dataDF["实收金额"]=dataDF["实收金额"].astype("f8")  ...:dataDF.dtypesOut[13]:销售时间  object社保卡号码  object商品编码  object商品名称  object销售数量  float64应收金额  float64实收金额  64dtypefloat64dtype:在“销售时间”这一列数据中,object存在星期这样的数据,但是在数据分析过程中不需要使用,所以要用split函数来划分销售时间列的中日期和周期,分割后的时间,Series数据类型返回:In[15]:#星期去除定义函数  ...:defsplitsaletime(timeColser):  ...:  timelist=[]  ...:  fortintimeColser:  ...:    timelist.append(t.split("")[0]) #[0]表示选定的分片,这意味着切割后选择第一个分片  ...:  timeser=pd.Series(timelist) #将列表转换为一维数据Series类型  ...:  returntimeser  ...:In[16]:#获取"销售时间"这一列数据  ...:t=dataDF.loc[:,"销售时间"]  ...:#调用函数去除周,获取日期  ...:timeser=splitsaletime(t)  ...:#修改"销售时间"这一列日期  ...:dataDF.loc[:,"销售时间"]=timeser  ...:dataDF.head()Out[16]:     销售时间     社保卡号  商品编码  商品名称 销售数量 应收金额  实收金额0 2018-01-01   001616528 236701 强大的VC银翘片 6.0 82.8 69.001 2018-01-02   001616528 236701 清热解毒口服液 1.0 28.0 24.642 2018-01-06  0012602828 236701   感康 2.0 16.8 15.003 2018-01-11 0010070343428 236701  三九感冒灵 1.0 28.0 28.004  2018-01-15    00101554328  236701    三九感冒灵   8.0  224.0  然后将切割后的日期转换为时间格式,以下数据统计方便:In[17]:#字符串转日期  ...:#errors='coerce'如果原始数据不符合日期格式,则转换值为Nat  ...:dataDF.loc[:,"销售时间"]=

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

应用程序无法正常启动0xc000005怎么办

无法正常启动0xc0000005怎么解决?应用程序无法正常启动0xc0000005解决步骤:; 1、首先右键软件图标,点击属性。; 2、打开属性后在属性栏里选择兼容性。; 3、然后勾选以兼容模式运行这个程续。; 4、…查看详情

Sinox是一个什么样的操作系统?

Sinox是一个什么样的操作系统?是一种操作系统·,Sinox汉澳操作系统是2005年8月面世的中国最新操作系统。  Sinox与freebsd、linux、windows比较Sinox和linux都是类unix操作系统,遵守posix标准…查看详情

免费的美剧app软件有哪些 美剧app排行榜前十名

  随着时代的发展,美剧越来越受到年轻人的喜爱,现阶段各种美剧app也层出不穷。通过美剧app,能够满足多元人群的追剧需求,同步更新剧集内容,了解最新的美剧动态。下面小编就给大家来详细介绍一下免费的美剧app软件有哪些 美剧app排行榜…查看详情

房产系统全国联网吗

随着社会的发展和人民生活水平的提高,房地产行业在中国经济中扮演着重要的角色。为了有效管理和监管房地产市场,许多国家建立了房产系统。但是,这些系统是否全国联网呢?以下是关于房产系统全国联网的重要性以及实现该目标所面临的挑战的文章。 房产系统全…查看详情

淘宝商品页面打不开,有什么办法可以解决?

淘宝网的首页能打开就是打不开店铺页面是怎么?第一步:先试试开下京东亚马逊,等其他网站的详情页,还有换个浏览器再试试!~~~如果都能打开就正面网络正常,就算清理了浏览器垃圾一样不可能打开淘宝! 第二步:试试打开天猫详情页,因为天猫和淘宝是相…查看详情

html如何加注释

怎么注释html标签?HTML语言中,注释用【】来添加,具体代码如下html注释代码是什么html中注释怎么写如何注释?写注释的话,我们只需要输入/就可以了,然后在后面写完之后也要加上一个这个符号就可以了,其次是注释的话,你写完一行代码或者…查看详情

怎么做第二域名? 第二域名设置方法

  优质答案(1)  域名和二级域名区别为:组成不同、范围不同、作用不同。  一、组成不同 1、域名:域名是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称。2、二级域名:二级域名是域名的倒数第二个部分,属于主域名…查看详情

怎样制作微信小程序?相关步骤要知道

微信小程序使用率是比较高的,尤其是在最近几年越来越火,有很多的线下商家相信也都是了解的,甚至有很多的企业想要制定自己的小程序,这样才能够将自己的产品展现出去,也能够吸引更多的客户。但是在进行微信小程序定制的时候,很多人并不了解步…查看详情

2022年代运营一家店铺多少钱

  现在很多的卖家在做电商的时候都会把店铺的运营交给第三方代运营公司,有很多商家是没有运营的这块能力的,那么2022年代运营一家店铺多少钱,下面万商云集小编就给大家来解答下这个问题。  2022年代运营一家店铺多少钱  如今天猫代运营公司越…查看详情

常用的绩效管理工具-绩效考核管理系统

说道绩效考核就不得不说道员工这一块,所有的绩效考核都是根据员工的工作能力,以及工作态度和工作效率而评定下来最终关于薪资的关键存在,那今天我们就来讲一下绩效考核管理系统都有哪些。 1、蓝信APP 这是一款很多公司正在使用的办…查看详情

documents是什么文件夹

hykb是什么文件夹可以删除吗?hykb是手机里的系统或者游戏数据文件。可以删除。 数据文件在大容量复制操作中,将数据从向外大容量复制操作传输到向内大容量复制操作的文件。在SQLServer2000数据库中,数据文件存放着在数据库中存储的…查看详情

空调品牌有哪些 2022十大空调品牌排行榜

  相信大家对空调的品牌都是比较熟悉的,家里面的也是装有空调的,下面万商云集小编给大家来详细介绍一下空调品牌有哪些 2022十大空调品牌排行榜,不知道下面的这些空调品牌有哪些,大家都使用过这些空调品牌没有。  一.格力GREE  近日,…查看详情

hao123浏览器兼容模式怎么设置

hao123浏览器是一款基于谷歌浏览器内核开发的浏览器,它提供了许多便捷的功能和个性化设置。当遇到某些网站或应用程序在hao123浏览器中无法正常显示或运行时,您可以尝试使用兼容模式来解决问题。要设置hao123浏览器的兼容模式,请按照以下…查看详情

2022年专利转让需要多少钱(新整理)

  如果一项专利有很大的市场前景,专利的转让可以给专利发明人带来很大的收益。专利的转让在中国也越来越普遍。下面小编就给大家来详细介绍一下2022年专利转让需要多少钱这一块的相关内容,希望下面的内容能帮助到大家。  2022年专利转让需要多少…查看详情

版权登记有什么作用?保护权益,获得补贴,作为无形资产

即使如今社会经济、互联网在飞速发展中,人们对知识产权的重视度越来越高,但在实际生活中仍然存在侵权的情况,但是若及时进行版权登记,受到法律保护,就能及时维护自己的著作权,因此很多人开始进行版权登记,那么究竟版权登记有什么作用呢? 图片来源于网…查看详情

最新文章