服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点

2020-12-31 13:50:33 阅读(136 评论(0)

TA(TencentAnalytics,腾讯分析)是第三方站长的免费网站分析系统,在数据稳定性和及时性方面受到站长的广泛好评,其第二次实时数据更新频率也得到了业界的认可。本文将从实时数据处理、数据存储等方面带您深入探索TA的系统架构和实现原理。网站分析(WebAnalytics)主要是指根据网站的用户浏览行为,分析网站的点击流数据和运营数据,监控网站的运营状况,为网站的优化提供决策依据。网站分析系统已成为网站管理员日常运营中不可缺少的工具。业内流行的网站分析系统主要包括谷歌Analytics、CNZZ、百度统计等产品。TA作为网站分析产品的新星,在社区分析、用户肖像、网站工具等方面形成了自己的特点,其第二次实时数据更新频率是行业领导者。TA在数据稳定性、准确性和及时性方面也享有良好的声誉。随着接入业务量的不断发展,TA每天需要处理和计算的数据量达到TB级。要实现如此庞大的数据量,并确保系统的高可用性并不容易。TA的实时计算框架借鉴了业内流行的一些流式计算系统的思路。虽然在系统建设中遇到了一些问题,但由于大量数据的实时处理和实时存储具有一定的典型性和通用性,我分享了TA的解决方案,希望能给你一些启示。TA的基本原理和系统架构的基本原理是通过嵌入站长网站的JavaScript脚本收集用户访问行为数据,并发送TA收集群。收集群收到数据后,将其过滤、编码和格式化,然后继续向后分发。数据处理集群负责按照业务逻辑计算数据,并将计算结果“写入”到数据存储集群,最后向站长显示结果数据。TA的基本原理如图所示。TA背景是一个完整的数据流处理系统:JavaScript收集的用户行为数据像河流一样流入TA背景,清洗计算后流出TA存储集群,供用户浏览和查询。TA的具体结构和核心部件如图所示。TA的背景分为离线和实时两部分:实时部分负责系统的主要功能计算,数据更新频率为秒;离线部分负责复杂的关联分析和跨天计算,数据更新频率为天。HttpAccess:主要负责HTTP协议的分析、数据的清理和格式化。ESC:EventStreamingCoder,它主要负责将系统中不可枚举的数据类型编码成整形,并将相应的关系持久化。ESP:EventStreamingProcessor,主要负责根据站点和UID重新组织数据并计算PV、UV、网站分析指标,如停留时间和跳失率。ESA:EventStreamingAggregator,根据网站总结ESP计算的数据,并将其写入Redis。Center:负责系统配置、数据路由管理、容灾切换功能的系统中心节点。Logserver:负责将Access收集到的数据以字符串的形式写入文件,并上传到TDCP。TDCP:腾讯分布式计算平台负责离线数据的计算,结果数据由脚本写入MySQL。在实时解决方案之前,TA每天需要处理数十万个网站的TB级数据。处理后的URL数量仍然是数亿,系统存储的Key数量超过10亿。TA实时系统面临的主要挑战是如何高效、低延迟地处理如此多的业务数据。TA解决方案的主要思路可以概括为数据全二进制化、全内存计算和NoSQL存储。以下是实时计算和实时存储两个子系统的深入讨论。对于计算子系统,我们参考了Hadoopp、S4和Storm等开源项目试图设计为一个更通用、更可扩展的全内存实时Event处理系统(或流行术语称为流实时Event处理系统)。对此类系统,我们设计支持的典型输入输出过程大致如图所示。实时计算系统的设计要点是数据组织、协议和增量计算模型。数据组织。考虑到内存和计算过程的性能要求,我们将所有非int数据类型转换为int。可列举的数据类型将其配置映射成唯一的int;不可枚举的数据类型,使用MD5算法近似得到唯一的int。例如,如果页面URL属于无数类型,则通过MD5算法近似预处理获得唯一的int;UserAgent中的浏览器类型字符串属于可枚举数据,则预先将映射配置为int。该方法节省了更多的内存,提高了整个系统的计算性能。协议。在协议层面,我们首先设计实现了一种可扩展的Event结构,支持半自动序列化/反序列化机制(参考msgpack设计)和紧凑的二进制编码(基于Zigzag编码,参考Protobuf的实现)。这种Event结构在流式高性能I/O(网络传输和持久化)表现相当好。实时计算子系统设计为Event实现,可以扩展任何支持。增量计算模型。增量计算模型是指定义为以下三个部分的基本计算过程(如图所示)Processor:负责计算和处理具体的业务逻辑。DataHolder:负责保存增量结果数据和计算所依赖的中间状态数据。Emitter:负责定期输出清空增量计算结果。在流程方面,分为以下三个步骤(如图所示)。接收Event,计算处理—Processor。保存计算结果,计算依赖于中间数据—DataHolder。定期触发输出时间片中的计算结果,清空计算结果—Emitter。增量计算模型削弱了分布式系统中单台机器的交易状态,简化了分布式计算系统的实现,提高了整个系统的性能。实时存储在TA系统中,实时存储的数据是需要通过Web显示层读取的统计数据。这类数据有两个典型特征。频繁更新写作。更新频率取决于系统的实时性,每个统计结果的更新频率最快可达1秒。少量读取。与上述更新相比,“少量”。统计数据可根据业务逻辑分为两类。固定数据:主要是URL、搜索关键词等数据。理论上,这部分数据不断增加,不会修改旧数据。动态数据:主要是经常更新的结果统计数据。这部分数据需要不断更新。例如,www.qq.PV和UV在com域名下的统计结果。考虑到TA实时统计数据的特点,我们选择NoSQL实现我们的存储系统;同时,LevelDB和Redis分别用于存储两种不同的数据类型。实时存储Redista的主要部件。考虑到TA系统本身是一个相对完善的分布式集群系统,我们需要的存储部件是“notclustering,butsharding”。也就是说,像HBase和MongoDB这样的“重武器”并不适合TA,NoSQL数据库中的“瑞士军刀”Redis以其出色的性能进入了我们的视野。同时,TA的结果数据类型也比较丰富,就像站点PV一样、UV、VV、IP等Hash类型的数据也有用户访问轨迹等set类型的“动态数据”,而Redis丰富的数据结构很好地完成了这项任务。选择Redis的另一个原因是它足够简单,容易扩展。扩展Redis命令可以解决我们在实际应用中发现的所有问题。例如,TA中有一个应用程序场景:存储在Redis中的数据通常不是最终结果数据,而是需要进一步计算的中间数据,以消除ESA模块的状态。bouncerate这个指标(bouncerate=bouncesession数/totalsession数),需要前台查询两次,再做一次操作,最后显示给用户。在高并发的情况下,无疑会影响系统的响应速度。本着“移动计算而不是移动数据”的原则,我们对Redissort、hmget命令扩展,使其支持四个操作,并成功地将原来的两个查询优化为一个。扩展四个计算的另一个目的是“通过计算交换存储”。例如,需要将两种类型添加到组件总和的类型数据中,只能存储两种类型,并添加“通过计算交换”的总数据。除数据读取外,数据写入还可以优化类似的合并数据。例如,TA在写入URL的PV中、UV、VV、IP、当停留时间和bouncerate这六个指标时,需要调用6个Redis命令。事实上,这六个指标存储在同一个Hash中。通过扩展hmincrby命令,支持一次更改Hash的所有field,可以将调用次数优化到一次。上线后也取得了不错的效果,CPU在峰值时的利用率几乎下降了一半,同时上层模块ESA的吞吐量也大大提高。LevelDB是Redis的有效补充。考虑到Redis是一个内存数据库,使用内存的成本高于硬盘,因此选择引入基于磁盘存储的LevelDB作为补充。我们选择LevelDB存储“固定数据”,因为LevelDB的写作性能足够好,阅读性能远远超过了目前“在线少量阅读”的需求。在数据存储的架构设计中,由于实时数据服务和在线系统的可靠性要求较高,我们主要采用双写复制 Sharding的设计方法。双写复制。为了提高在线系统服务的可用性,所有数据存储将至少同步写两份。数据分片(Sharding)。基于域名:所有数据以域名为单位组织分片;任何域名都可以调整到任何分片;原则上,单个域名数据存储在一个分片中。动态调整(如图所示):只调整分片策略,不移动数据;根据数据量计算分片负载。另外,对于分片集群数据的查询,我们主要做了三项工作(如图所示)。Redisprotocolstack是一个相对完整的Redis协议栈,是上层应用的基础。直接使用Redis协议作为外部查询的通用协议,使外部用户可以通过当前的RedisClient直接查询访问数据。QueryRulengine是一个灵活的查询引擎。能够根据规则智能地在多个Redis中工作、查询LevelDB数据源,执行类join操作;还简单扩展其他异构数据源,如MySQL、HBase等。QueryComputeengine是一种实时查询计算引擎,可根据基本查询结果实时计算。本部分的主要目的是减少Redis数据空间的占用。展望未来,虽然TA已经在后台更新了数据秒,但显示模式仍然是传统的静态模式。后续TA会尝试更多的数据动态刷新,让站长第一时间了解网站的营销效果,时刻感受网站的心跳。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

这三款手机大字体软件一定要给家里长辈安排起来

虽然现在的手机都是智能手机,但是,一些老年人是老花眼,对于手机上的字看不清楚,所以,一般会把字体放大才可以看清,但是,很多人都还不知道手机大字体软件有什么。因此不知道如何放大。 1、字体管家 专为安卓手机用户构建的字体样式下…查看详情

国内获得融资的6家移动CRM平台介绍

随着移动互联网时代到来,只能用于电脑的CRM客户管理系统已无法满足现代企业需求,因而催生出了移动CRM平台,也催生出许多的移动CRM平台厂商。而这些厂商中,也不乏优秀的、获得融资的移动CRM平台,接下来小万就为大家选出6家获得融资厂商,以做…查看详情

企业自己做网站建设,避免三大坑

现代企业愈发具有互联网经营意识,网站建设早已变成司空见惯的事情。不少初创企业做网站,或发展中企业网站改版升级,开始直接选择自己做网站建设。这在一定程度上能够帮助企业节省沟通成本,按照自己的想法来落实网站建设,但也无可厚非的带来了一些麻烦。企…查看详情

商标注册第19类属建筑材料,其中包括15个小项

商标注册是商标使用人取得商标专用权的前提和条件,只有经核准注册的商标,才受法律保护。“先申请先注册”的商标注册原则是中国确定商标专用权的基本准则。商标注册一共分了45类,商标注册申请人可根据实际情况进行类别选择。今天,小万就为大家详细介绍商…查看详情

背单词的软件哪个好用 好用的背单词app推荐

  很多人都跟我说不知道怎么记单词,而且很多人不知道怎么利用记单词软件来记单词,下面万商云集小编给大家推荐一下背单词的软件哪个好用 好用的背单词app推荐,希望能帮助到大家解决记单词的问题。  1、百词斩app  这个软件想必大家不会陌生…查看详情

版权纠纷属于民事还是刑事

版权纠纷通常属于民事范畴,而非刑事。以下是关于版权纠纷的基本解释和划分为民事性质的原因。 版权是指对作品的独占性权利,包括复制权、发行权、演出权等。当他人未经授权使用他人作品时,可能涉及版权侵权问题。根据大多数国家和地区的法律体系,版权纠纷…查看详情

网站seo推广 | 建站布局关键词,若流量不佳要诊断报告分析

网站seo推广,并非是在网站建设完成后才开始进行的。要想网站有曝光、有流量,应在网站建设初期就进行关键词布局,如此才能在后续的推广中更轻松。 图片来源于网络 ◆ 网站seo推广是什么?网站seo推广就是指基于网站建设平台所进行的一系列se…查看详情

为什么ERP系统实施难?应该怎样规避风险

中小企业在信息数字化的道路上徘徊不前,并不是看不到先进的技术和理念,其核心原因是ERP系统实施困难的问题没有得到良好的解决。目前通过实施ERP来提高企业自身的成本、速度、管理、质量、科技等方面的竞争优势,已成为中小企业的当务之急。谁能先一步…查看详情

苏州商标注册去哪里?通过这些渠道就能够完成商标注册

很多企业为了能够保护自己的品牌形象,都会设有商标设计,而且设计完商标之后也会进行商标注册,其实这对于企业来讲是非常重要的选择了,只有拥有了自己的商标注册之后,才能够得到产品的保护,也能够对自己的企业形象带来维护,而且企业商标也更是能够让消费…查看详情

全球比较出名的网站有哪些

在进行网站建设的时候,很多人也都会选择比较靠谱的平台,因为现在比较靠谱的网站建设公司才能够带来更好的网站建设效果也能够帮助企业得到好的发展,现在全球比较出名的网站有很多,在建站之前也应该要有了解。那么全球比较出名的网站有哪些呢?下面就来给大…查看详情

注意事项 | 企业要做好注册商标管理,维护也是一个重要环节

商标注册完成,证书拿到手后就可以不管不顾了?错!注册商标也是需要进行管理,尤其是对企业来说。往下翻看,了解更多关于注册商标管理的事项。 图片来源于网络 企业商标证书到手后,应如何做好注册商标管理? ◆ 事项一:保持联系若是委托代理机构代为注…查看详情

淘宝访客数是什么意思

  优质答案(1)  抖音小店总访客数指的是有多少用户点进了抖音小店的主页。点击数指的是有多少用户?点进了抖音小店的主页,同时点开了商品页面。  只有用户点开了商品页面才会计算点击数。  对于抖音小店来说,访客数以及点击率都是非常重要的两个…查看详情

ascii码是几位码

一个字符的标准ascii码是多少字节?一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。 奇校验规定:正确的代码一个字…查看详情

淘宝同城购怎么操作?

  优质答案(1)  是你买的东西,可能是在你的城市发给你的,所以说就会很快就到达你要的地址,然后你填的地址,然后就离你很近,然后就马上就能发货到你那里,然后一天之内可能就会给你送到或者几个小时就能给你送到,这就是同城发货,同城购买的话,应…查看详情

支付宝跑腿任务是干什么的?

  优质答案(1)  打开支付宝——全部应用——蚂蚁微客,点进去就可以看到服务界面,点击出门跑腿图标,就可以开始报名了,要芝麻信用分大于550分才可以的。  优质答案(2)  打开支付宝app,在首页点击进入全部功能页面;  然后在找到“蚂…查看详情

最新文章