数据的获取来源以及数据的特点和分类
2021-01-04 11:34:46 阅读(190) 评论(0)
数据的作用主要体现在解释过去和预测未来两个方面。本文介绍了如何通过数据解释过去发生的事情。包括过去发生了什么,这些事情的规律驱动因素是什么,是否有明显的改进或改进等等。在开始之前,我们将介绍数据获取来源、数据特征和分类。以网站数据为例,对数据来源进行分类,网站数据来源于服务日志和网站分析工具。以下是网站分析工具GoogleAnalytics的日志信息。这个日志包含了一些用户和网站的信息。谷歌通过处理这些信息产生数据,最终生成我们看到的网站数据报告。为了更清楚地看到日志中包含的具体信息,我们将日志拆分显示。可以看出,每一条信息都是以一对参数和值的形式记录的。比如参数t表示这个日志的类型,值pageview表示这是一个PV日志。(除了PV日志,GoogleAnalytics还包括event日志和其他类别的日志)表示每个此类日志都表示页面浏览。另一个例子是,参数dl表示用户当前浏览的页面地址,值表示页面的具体URL。通过观察日志中的信息,可以发现日志中包含的信息分为两类,即参数背后的值类型。一类是类别变量,在Googleanalytics中,参数值类型为text或boolean,如客户ID、地理位置、屏幕分辨率等。另一种是数值变量,在GoogleAnalytics中,参数值类别为integer或currency,如事件价值、商品数量、交易收入等。详情请参考《MeasurementProtocol参数参考》类型变量数值变量。在了解了Googleanalytics日志中信息的分类后,我们开始解释每个类别信息的分析方法。包括各类信息的分析方法及其合适的图表显示形式。首先,介绍类型变量和数值变量的分析方法。这里有两个冗长的单一因素分析。大多数时候,由于缺乏数据,我们无法获得有用的结果或洞察力,而不是因为数据太多。在这里,我们拆分信息,每次只介绍一种信息,找出规律和驱动因素。避免在大量无用的数据中丢失。正如我们前面所说,GoogleAnalytics日志收集的信息分为类别变量和数值变量两类。让我们分别看看这两种信息的分析方法。类别变量类别变量是指日志中以文本或布尔值的形式记录的信息。这类信息本身不是数据,不能直接操作。在转化为我们常见的数据形式之前,需要处理。例如,以下浏览器信息。每个用户使用不同类别的浏览器。当用户访问网站时,我们以文本的形式记录了这些浏览器的品牌信息。这类信息属于类别变量。以下是一组浏览器的品牌信息列表。对于浏览器品牌等类别变量,我们将计算生成频率和比例数据。用于分析不同浏览器品牌的受欢迎程度和重要性。以下是计算出的不同浏览器品牌的数量和所有浏览器品牌的比例。Chrome在所有浏览器中出现次数最多,为30次。在所有浏览器中占50%以上。说明Chrome是样本数据中比较流行的浏览器品牌。柱形图、条形图、蛋糕图或环形图是类别变量频率和比例数据的最佳显示形式。以下条形图显示了不同浏览器品牌的频率,环形图显示了不同浏览器品牌的比例。数值变量数值变量是指日志中以数值形式记录的信息。这些信息可以直接用作数据,也可以通过相互运算产生新的数据。举例来说,下面的浏览深度是通过访问网站的次数和浏览页面的总次数来计算的。对于数值变量,我们通常使用描述统计来观察数据的集中度和离散度。用于描述集中度的指标包括平均数、中位数和众数。方差和标准差描述了离散程度。通过描述统计提供的一系列指标,我们可以找到和描述数值的规律。通过描述统计,可以发现浏览深度集中在1.5页左右。标准差为0.3,表示整体数据离散程度不高。Excel中数据菜单下的数据分析功能可以找到描述统计。除描述统计外,第二个要分析的是数值的分布。事实上,前面的平均值、标准差、峰度和偏度指标大致描述了变量分布的形式,但下面的直方图更直观地显示了数据分布。从直方图可以看出,浏览深度数据符合正态分布,概率最高的是1.5次。换句话说,浏览深度数据集中在1.5页左右,相对稳定,变化不大。页面浏览较多和较少的页面并不多。页面浏览深度最小为1.12页。页面浏览深度最大的是2.29页。在之前的单因素分析中,我们分别介绍了类别变量和数值变量的分析方法,下面介绍了双变量的分析方法。简单地说,双变量分析是单因素的组合。我们将双变量分为类别变量三类&类别变量,数值变量&数值变量和类别变量&数值变量。分析两个变量之间的关联和差异。类别变量&类别变量的第一个双变量&类别变量。以下是一组客户来源和是否交易的列表。记录每个客户的来源以及最终是否交易。其中,客户来源分为线上和线下两个来源。交易记录是否为“是”,未交易记录为“否”。对于这组数据,我们使用卡方检查来分析线上和线下来源的交易率是否存在显著差异。我们之前有一篇单独的文章来介绍卡方检查的方法,感兴趣的朋友可以查看详细的计算过程。在这里,我们将粗略地解释计算过程和结果。首先,生成频率表计算不同来源的交易量和未交易量。并计算出线上和线下来源的交易率数据。第二步,根据之前频率表中的数据,按照卡方检验的方法计算出线上线下来源交易和未交易的预期数据。以下是通过计算获得的期望数据。最后,通过使用频率表和期望值数据计算,线上线下的交易率存在显著差异。具体数据请参考下表。数值变量&数值变量的第二个双变量是数值变量&以下是一组广告消费和点击量的数据。在广告平台上记录消费情况和点击数据。对于这组数据,我们通过相关分析来分析消费和点击量之间的相关性。有许多相关的分析方法,我们之前单独介绍过《五种常用的相关分析方法》。这里使用相关分析来分析消费与点击数据之间的关系。通过Excel数据菜单中的数据分析功能获得的消费与点击量的相关数据为0.95,表明消费与点击量高度正相关。对于两组数值变量,最好的显示形式是使用散点图。点击量与消费的关系通过散点图描述。随着消费的增加,点击量也随之增加。在Excel的散点图中,选择添加趋势线可以自动生成回归方程和判断系数R方。可以解释点击量91%的变化。类别变量&数值变量的第三个双变量是类别变量&以下是一组每日访问量数据,对应于网站每天获得的访问量数据。日期为类别变量,访问量为数值变量。我们在前15天和后15天分别采用了不同的推广策略。Z建议和T检验分析访问量数据前后变化差异的显著性将分别使用。首先,根据交付策略将30天的访问数据分为前后两组,每组15天,然后计算每组数据的平均值和方差。具体数据如下表所示。然后在Excel的数据菜单中选择数据分析,使用Z检验进行差异显著性检验。经过测试,在95%的置信范围内,两组访问量数据之间没有显著差异。T检验类似于Z检验。我们在Excel中选择数据分析数据菜单,并使用T检验对两组访问量数据进行差异显著检验。在95%的信心范围内,两组访问量数据之间没有显著差异。最后,总结整篇文章的内容。我们将信息分为两类:类别变量和数值变量。类别变量是用文本或布尔值记录的信息,数值变量是用数字记录的信息。在单独分析这两种信息时,类别变量通常使用频率和比例的方法,而数值变量通常使用蔑视统计和数据分布的方法。在双变量分析中,主要分析两个变量之间的相关性和差异的显著性。双变量分析分为类别变量三类&类别变量,数值变量&数值变量和类别变量&数值变量。第一类变量&通过卡方检查分析数据间差异的显著性。数值变量&通过线性相关分析发现数据之间的关系。类别变量&通过Z检验和T检验分析数据之间数值变量差异的显著性。
推荐阅读
- 国内b2b网站有哪些 2022 国内b2b网站排行榜
随着这几年的疫情的影响企业知道网络营销的重要性,但是很多一直苦找无门没有合适的自己互联网营销方式,我们来看下B2B不仅仅是建立一个网上的买卖者群体,它也为企业的之间的战略合作提供了基础。任何一家企业,不论它具有多强的技术实力或多好的经营…查看详情
- 一般商标价格多少
商标的价格因多种因素而异,包括地区、商标分类、申请途径以及专业服务费等。以下是关于商标价格的一般指导和相关信息:商标作为企业的重要资产之一,有助于区别和保护其产品或服务。商标的价格通常由以下几个方面决定:1. 地区:商标注册费用在不同国家和…查看详情
- 企业沟通不畅 效率低?总管家CRM来帮你
“工欲善其事必先利其器”出自论语,意思是:一个工匠要想工作做得好,必须使用锋利的工具。对于普通的销售员来讲,想要有效管理客户,快速提升销售业绩,必须使用高效的跟单工具。对于企业来讲,想要提升管理水平,提高整体效益,必须借助先进的管理工具。图…查看详情
- 织梦模板首页修改教程
织梦模版下修改列表页头部模版和列表页底部模版后,网站的其他网页还是没有成功。希望好心人给以讲解?首先你看下,你修改的所谓列表页头部模板和底部模板在其他的模板文件是不是调用同一个,如果是的话,就更新缓存下。 然后在生成,织梦经常是缓存导致修…查看详情
- 电视剧免费看的软件有哪些 电视剧免费看的软件排行榜
现在市面上大多数电视直播软件都是要收费的,而且这些收费电视直播软件还是比较贵的,但是也有很多电视直播软件是不收费的,下面小编就给大家来详细介绍一下电视剧免费看的软件有哪些 电视剧免费看的软件排行榜这一块的相关内容,希望能帮助到大家。…查看详情
- 商标可随意使用吗?
网站logo和名称如果没注册商标的话,别人使用算侵权吗?不算。 我们国家对商标的适用原则是申请在先原则,就是谁先在商标局申请,这个商标就是谁的。如果都没有申请,肯定是谁都可以使用的。商标注册就是给予给予商标注册人以商标专用权,防止他人侵权…查看详情
- 域名注册管理机构不接受你的域名申请?可能是你不了解这些!
域名注册管理机构并不是指域名市场或平台上接受个体域名注册申请的公司,它和域名注册服务商/代理商是有明显区别的,某个具体的域名注册申请业务并不在域名注册管理机构的责任范围,所以不接受你的域名注册申请也很正常。如果您遇到了被拒的情况,您可以了解…查看详情
- 万商云集通过CMMI 3级认证,研发管理能力获国际认可
近日,万商云集经过CMMI研究院主任评估师的严格评估,顺利通过CMMI3级认证,向业界展示了万商云集领先行业的研发管理能力和孜孜不倦的品牌追求。(CMMI3级认证证书) CMMI资质是美国CMMII1titute企业管理的资质认证,是目前在…查看详情
- 阅读神器!6款免费看小说软件推荐
看小说是许多人闲暇时打发时间的方式,市面上各种小说软件琳琅满目,不少是需要付费后才能阅读的,因此许多人会在网络上寻找一些免费的看小说软件。那么,免费的小说阅读APP哪个好用呢?今天就为大家5款免费的小说阅读器,一起来了解一下吧。…查看详情
- 合作伙伴:葛氏济世堂
品牌介绍葛氏济世堂是四川省利健济世科技有限公司于2014年1月28日注册的第5类医疗用品品牌,注册号:9998238。葛氏济世堂自成立以来,坚持为顾客提供医药、健康理疗服务,葛氏济世堂的产品从制作到最终为理疗者服务,全程由公司核心团队严格把…查看详情
- 线上签合同用什么软件?线上签合同用软件排名
因为现在已经进入到了一个网络的时代,所以难免也会有一些需要线上签合同的情况出现,如果没有一个好用的工具,在平时生活中,自然就会受到一些影响。可以选择使用线上签合同的软件,不仅功能强大,同时也可以快速完成线上签合同的需求,那么下面…查看详情
- 新能源汽车品牌有哪些 新能源汽车十大名牌
新能源汽车领域这两年涌进了不少新兴的汽车品牌,而且国家也在大力发展新能源汽车,目前市面上的新能源汽车品牌还是i非常的多的,下面万商云集小编给大家来详细介绍一下新能源汽车品牌有哪些新能源汽车十大名牌,不知道下面的新能源汽车品牌有没有大家喜…查看详情
- 苹果怎么弄抖音动态壁纸
苹果怎么弄抖音动态壁纸呢?这是一个相对较新的技巧,但非常流行。如果你不知道如何做,不用担心,下面将为您详细描述。 您需要将设备升级至iOS13以上的版本。苹果推出了一种名为“Live Photos”的功能,使您的照片可以动态地播放。…查看详情
- 为什么注册商标?企业容易被告侵权,赔偿他人损失
为什么注册商标?因为商标是企业建立自主品牌的第一步,是企业的形象,并可以帮助企业巩固市场地位。企业若不注册商标,则随时可能被他人侵犯自己权益或面临被告侵权的风险。 图片来源于网络 为什么注册商标?这五大理由你不能不知道。◤ 1. 获取法律…查看详情
- 如何做好网站建设和推广
很多中小企业在建设网站时,往往对建设工作和推广工作的开展非常盲目。致使网站上投入很多的精力和财力,却依然不能得到好的效果。那么如何才能做好网站建设和推广,使企业网站更具竞争力呢?第一、做好网站建设和推广的第一步就是完成建站 网站建设是提升企…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00















































注册有好礼



