分析案例丨朝阳医院在2018年里的销售情况
2020-12-28 11:18:47 阅读(186) 评论(0)
1、数据分析的目的数据分析是指通过适当的统计分析方法对收集到的大量数据进行分析,提取有用的信息,形成结论,并对数据进行详细研究和总结的过程。在本文中,假设以2018年朝阳医院的销售数据为例,目的是了解2018年朝阳医院的销售情况,需要了解月平均消费次数、月平均消费金额、客户单价、消费趋势等几个业务指标。2、数据分析的基本过程包括:数据获取、数据清洗、模型构建、数据可视化和消费趋势。2.1获取数据Excel中数据部分的截图:先导入包,再读取文件,读取时用object读取,防止一些数据无法读取:In[1]:importpandasaspdIn[2]:#读取数据(最好使用object类型) ...:data=pd.read_excel("2018年朝阳医院销售数据.xlsx",dtype="object")In[3]:#修改为DataFrame格式 ...:dataDF=pd.DataFrame(data)In[4]:dataDF.head()Out[4]: 购药时间 社保卡号 商品编码 销售商品名称的数量 应收金额 实收金额0 2018-01-01星期五 001616528 236701 强VC银翘片 6 82.8 691 2018-01-02星期六 001616528 236701 清热解毒口服液 1 28 24.642 2018-01-06星期三 0012602828 236701 感康 2 16.8 153 2018-01-11星期一 0010070343428 236701 三九感冒灵 1 28 284 2018-01-15星期五 00101554328 236701 三九感冒灵 8 224 208查看In[5]这些基本信息:#查看数据的形状,即几行几列 ...:dataDF.shapeOut[5]:(6578,7)In[6]:#查看索引 ...:dataDF.indexOut[6]:RangeIndex(start=0,stop=6578,step=1)In[7]:#查看每列列表头的内容 ...:dataDF.columnsOut[7]:Index(['购药时间','社保卡号','商品编码','商品名称','销售量','应收金额','实收金额'],dtype='object')In[8]:#查看每列数据统计数量 ...:dataDF.count()Out[8]:购药时间 6576社保卡号 6576商品编码 6577商品名称 6577销售数量 6577应收金额 6577实收金额 6577dtype:int64共有6578行7列数据,但“药品购买时间”和“社会保障卡号”两列只有6576个数据,“商品代码”到“实收金额”这两列只有6577个数据,这意味着数据缺失值,可以推断数据缺失值,除了“药品购买时间”和“社会保障卡号”两列各有一个缺失数据,这些缺失数据需要在以下步骤中进一步处理。2.2数据清洗数据清洗过程包括:选择子集、列名重命名、数据处理缺失、数据类型转换、数据排序及异常值处理2.2.1在我们获得的数据中选择子集,数据量可能非常大,不是每个列都有价值需要分析。此时,我们需要从整个数据中选择合适的子集进行分析,以便从数据中获得最大的价值。在这种情况下,不需要选择子集,这一步暂时可以忽略。2.2.在数据分析过程中,一些列和数据容易混淆或模棱两可,不利于数据分析。此时,需要将列替换为易于理解的名称,可以通过rename函数实现:In[9]:#使用rename函数,把"购药时间"改为"销售时间" ...:dataDF.rename(columns={"购药时间":"销售时间"},inplace=True) ...:dataDF.columnsOut[9]: Index(['销售时间', '社保卡号', '商品编码', '商品名称', '销售量', '应收金额', '实收金额'], dtype='object')2.2.在缺失数据处理获得的数据中很可能存在缺失值,通过查看基本信息,可以推断“购药时间”和“社保卡号”存在缺失值。如果不处理这些缺失值,会干扰以下数据分析结果。缺失数据的常用处理方法是删除包含缺失数据的记录或使用算法来补充缺失数据。为方便起见,dropna函数直接用于删除缺失的数据,具体如下:In[10]:#在删除缺失值之前 ...:dataDF.shapeOut[10]:(6578,7)In[11]:#使用dropna函数删除缺失值 ...:dataDF=dataDF.dropna()In[12]:#删除缺失值后 ...:dataDF.shapeOut[12]:(6575,7)2.2.在导入数据时,4数据类型的转换是为了防止导入不进来,所有数据都是object类型,但在实际数据分析过程中,“销售数量”、“应收金额”和“实收金额”需要浮点类型(float)数据、“销售时间”需要改为时间格式,因此需要转换数据类型。可以将astype()函数转换为浮点数据:In[13]:#将字符串转换为浮点数据 ...:dataDF["销售数量"]=dataDF["销售数量"].astype("f8") ...:dataDF["应收金额"]=dataDF["应收金额"].astype("f8") ...:dataDF["实收金额"]=dataDF["实收金额"].astype("f8") ...:dataDF.dtypesOut[13]:销售时间 object社保卡号码 object商品编码 object商品名称 object销售数量 float64应收金额 float64实收金额 64dtypefloat64dtype:在“销售时间”这一列数据中,object存在星期这样的数据,但是在数据分析过程中不需要使用,所以要用split函数来划分销售时间列的中日期和周期,分割后的时间,Series数据类型返回:In[15]:#星期去除定义函数 ...:defsplitsaletime(timeColser): ...: timelist=[] ...: fortintimeColser: ...: timelist.append(t.split("")[0]) #[0]表示选定的分片,这意味着切割后选择第一个分片 ...: timeser=pd.Series(timelist) #将列表转换为一维数据Series类型 ...: returntimeser ...:In[16]:#获取"销售时间"这一列数据 ...:t=dataDF.loc[:,"销售时间"] ...:#调用函数去除周,获取日期 ...:timeser=splitsaletime(t) ...:#修改"销售时间"这一列日期 ...:dataDF.loc[:,"销售时间"]=timeser ...:dataDF.head()Out[16]: 销售时间 社保卡号 商品编码 商品名称 销售数量 应收金额 实收金额0 2018-01-01 001616528 236701 强大的VC银翘片 6.0 82.8 69.001 2018-01-02 001616528 236701 清热解毒口服液 1.0 28.0 24.642 2018-01-06 0012602828 236701 感康 2.0 16.8 15.003 2018-01-11 0010070343428 236701 三九感冒灵 1.0 28.0 28.004 2018-01-15 00101554328 236701 三九感冒灵 8.0 224.0 然后将切割后的日期转换为时间格式,以下数据统计方便:In[17]:#字符串转日期 ...:#errors='coerce'如果原始数据不符合日期格式,则转换值为Nat ...:dataDF.loc[:,"销售时间"]=
推荐阅读
- 企业应该如何选择代运营公司
电商行业发展这么多年,如今的电商行业已经非常成熟,很多人都选择通过网络创业,有人买就有人卖,各行各业就像蝴蝶效应一样,随机伴随而来的相关产业也应运而生,比如说网店代运营公司,在近几年网店代运营公司就像雨后春笋一样,层出不穷,那么竞争如此激烈…查看详情
- 【直播赋能电商双十一】数以万计电商隔空拼杀,简直不要太刺激!
2020年10月12日,毕马威联合阿里研究院发布研究报告《迈向万亿市场的直播电商》预计,今年直播电商整体规模进入“万亿时代”。商务部数据显示,2020年上半年,全国范围电商直播数量超过1000万场,活跃主播数量超过40万,*人数超过500亿…查看详情
- efi系统分区能删除吗
EFI(Exte1ibleFirmwareInterface)系统分区是用于存储计算机启动相关信息的分区,通常位于*盘上的一个特定区域。这个分区包含了启动管理器、引导加载程序和操作系统的引导文件等重要数据。由于其重要性,推荐不要随意删除EF…查看详情
- rar是什么格式的文件
RAR是什么格式?RAR是一种常用的数据压缩格式,它可以把一个较大的文件或多个文件压缩到一个更小的体积内。它最早是WinRAR开发出来的,后来也被其他系统所支持,如Unix、Linux等。RAR文件使用独特的压缩算法,压缩率比Zip文件更高…查看详情
- 2022比较好用的翻译软件有哪些
现在很多的行业都要用到翻译软件,但是不同的行业的翻译软件的需求是不同的,下面万商云集小编给大家来盘点几款好用的翻译软件。 一、谷歌翻译 谷歌翻译作为入门级别的翻译软件,基本上家喻户晓。谷歌浏览器有全网页翻译的内置引擎,翻译上不论是汉…查看详情
- 制作flash的软件有哪些 免费制作flash的软件推荐
Flash属于一个做设计类的软件,当我们学得是设计专业,需要给别人设计东西的时候,就会用到这种软件,但是,目前为止很多人都还不清楚制作flash的软件都有什么,因此不知道下载哪个用。 1、flash8 用这个软件制作出来的文…查看详情
- 消费者薅电商羊毛越来越难,线上线下同款同价大势所趋
双十一已经走过了11个年头,天猫每年都在刷新双十一的成交总额,今年定格在2684亿,相较去年的2135亿元,增长了25.71%。我们看到的是不断增长的数字,背后却是无数商家绞尽脑汁想各种双十一的玩法,都希望通过新玩法让店铺的销量上一个台阶。…查看详情
- 有哪些投票软件呢?这几款值得选择
日常的生活中难免会遇到网上投票的情况,而通过使用一款专业的投票软件可以快速的投票,还可以拉票,更能够掌握实时的投票数据情况,尤其是粉丝想要给偶像投票的话,选择一款实用的投票软件也是很重要的,那么有哪些投票软件呢?这几款值得选择,…查看详情
- 企业管理有顺序,走好这5步不会乱
企业管理包含哪些内容?概括起来是五个方面:计划管理、流程管理、组织管理、战略管理、文化管理。这五方面内容是一个递进关系,顺序不能颠倒,也不能只强调一个而忽略其它。一个好的企业管理,需要这五方面内容协同作用,而这五项内容的协同就是企业的系统能…查看详情
- 电脑定位软件-如何定位找人
随着科技和互联网的迅速发展,定位软件也层出不穷,市面上出现的电脑定位软件也越来越多。一款好用的电脑定位软件可以精准定位,今天为大家介绍一些电脑定位软件,供大家挑选时参考。1.WialonGPSTrackingWialonGPSTrackin…查看详情
- c语言strcmp是什么意思
c语言比较函数?字符串比较函数,一般形式为strcmp(字符串1,字符串2)。比较规则:对两个字符串自左至右逐个字符相比(按ASCII码值大小比较),直到出现不同的字符或遇到‘\0’为止。 如果全部字符相同,则认为相等;若出现不相同的字符…查看详情
- SAP和ERP有哪些区别?
SAP和ERP是两种涉及企业资源规划的概念,虽然它们之间存在一些相似的概念和特点,但在实际应用中,它们具有不同的范畴和实现方式。本文将详细介绍SAP和ERP之间的区别,以及它们各自的定义、特点以及对企业的价值等方面的分析。 一、概念的…查看详情
- 看小说哪个网站好呢?2021必看十大网络小说网站排行榜
你知道看小说哪个网站好吗?网络小说网站的排行版块囊括了国内各大主流小说网站和论坛以及搜索引擎小说搜索热度排行,想知道在哪看小说不容易踩雷,以下2021必看十大网络小说网站排行榜一定要收藏! 1.起点中文网 起点中文网隶属于阅读集团,是一个大…查看详情
- 大主播都用什么声卡 唱歌主播专业声卡推荐
我们都知道现在是互联网的时代,很多人都已经转型做了主播,主播相对来说是比较赚钱的,尤其是对于一些娱乐主播来说,那么,娱乐主播在直播的时候也是有设备的,其中的声卡就是非常重要的一个设备,那么主播声卡排行榜都有什么呢? 1、唱吧…查看详情
- 信息化时代微博现状及解决方案—微博舆情监控系统
信息化时代,科技越来越发达,社交软件也层出不穷。微博早已进入大多数人们的视野里,伴随着微博用户爆炸式增加的同时,一些规避各种责任的商业微博已经出现了泥沙俱下的乱象。如恶意散布虚假信息已经严重威胁了社会的稳定和安全。为了解决问题,微博舆情监控…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00















































注册有好礼



