服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

TencentAnalytics腾讯网站分析系统的架构在Redis数据存储等方面的技术运用可圈可点

2020-12-31 13:50:33 阅读(145 评论(0)

TA(TencentAnalytics,腾讯分析)是第三方站长的免费网站分析系统,在数据稳定性和及时性方面受到站长的广泛好评,其第二次实时数据更新频率也得到了业界的认可。本文将从实时数据处理、数据存储等方面带您深入探索TA的系统架构和实现原理。网站分析(WebAnalytics)主要是指根据网站的用户浏览行为,分析网站的点击流数据和运营数据,监控网站的运营状况,为网站的优化提供决策依据。网站分析系统已成为网站管理员日常运营中不可缺少的工具。业内流行的网站分析系统主要包括谷歌Analytics、CNZZ、百度统计等产品。TA作为网站分析产品的新星,在社区分析、用户肖像、网站工具等方面形成了自己的特点,其第二次实时数据更新频率是行业领导者。TA在数据稳定性、准确性和及时性方面也享有良好的声誉。随着接入业务量的不断发展,TA每天需要处理和计算的数据量达到TB级。要实现如此庞大的数据量,并确保系统的高可用性并不容易。TA的实时计算框架借鉴了业内流行的一些流式计算系统的思路。虽然在系统建设中遇到了一些问题,但由于大量数据的实时处理和实时存储具有一定的典型性和通用性,我分享了TA的解决方案,希望能给你一些启示。TA的基本原理和系统架构的基本原理是通过嵌入站长网站的JavaScript脚本收集用户访问行为数据,并发送TA收集群。收集群收到数据后,将其过滤、编码和格式化,然后继续向后分发。数据处理集群负责按照业务逻辑计算数据,并将计算结果“写入”到数据存储集群,最后向站长显示结果数据。TA的基本原理如图所示。TA背景是一个完整的数据流处理系统:JavaScript收集的用户行为数据像河流一样流入TA背景,清洗计算后流出TA存储集群,供用户浏览和查询。TA的具体结构和核心部件如图所示。TA的背景分为离线和实时两部分:实时部分负责系统的主要功能计算,数据更新频率为秒;离线部分负责复杂的关联分析和跨天计算,数据更新频率为天。HttpAccess:主要负责HTTP协议的分析、数据的清理和格式化。ESC:EventStreamingCoder,它主要负责将系统中不可枚举的数据类型编码成整形,并将相应的关系持久化。ESP:EventStreamingProcessor,主要负责根据站点和UID重新组织数据并计算PV、UV、网站分析指标,如停留时间和跳失率。ESA:EventStreamingAggregator,根据网站总结ESP计算的数据,并将其写入Redis。Center:负责系统配置、数据路由管理、容灾切换功能的系统中心节点。Logserver:负责将Access收集到的数据以字符串的形式写入文件,并上传到TDCP。TDCP:腾讯分布式计算平台负责离线数据的计算,结果数据由脚本写入MySQL。在实时解决方案之前,TA每天需要处理数十万个网站的TB级数据。处理后的URL数量仍然是数亿,系统存储的Key数量超过10亿。TA实时系统面临的主要挑战是如何高效、低延迟地处理如此多的业务数据。TA解决方案的主要思路可以概括为数据全二进制化、全内存计算和NoSQL存储。以下是实时计算和实时存储两个子系统的深入讨论。对于计算子系统,我们参考了Hadoopp、S4和Storm等开源项目试图设计为一个更通用、更可扩展的全内存实时Event处理系统(或流行术语称为流实时Event处理系统)。对此类系统,我们设计支持的典型输入输出过程大致如图所示。实时计算系统的设计要点是数据组织、协议和增量计算模型。数据组织。考虑到内存和计算过程的性能要求,我们将所有非int数据类型转换为int。可列举的数据类型将其配置映射成唯一的int;不可枚举的数据类型,使用MD5算法近似得到唯一的int。例如,如果页面URL属于无数类型,则通过MD5算法近似预处理获得唯一的int;UserAgent中的浏览器类型字符串属于可枚举数据,则预先将映射配置为int。该方法节省了更多的内存,提高了整个系统的计算性能。协议。在协议层面,我们首先设计实现了一种可扩展的Event结构,支持半自动序列化/反序列化机制(参考msgpack设计)和紧凑的二进制编码(基于Zigzag编码,参考Protobuf的实现)。这种Event结构在流式高性能I/O(网络传输和持久化)表现相当好。实时计算子系统设计为Event实现,可以扩展任何支持。增量计算模型。增量计算模型是指定义为以下三个部分的基本计算过程(如图所示)Processor:负责计算和处理具体的业务逻辑。DataHolder:负责保存增量结果数据和计算所依赖的中间状态数据。Emitter:负责定期输出清空增量计算结果。在流程方面,分为以下三个步骤(如图所示)。接收Event,计算处理—Processor。保存计算结果,计算依赖于中间数据—DataHolder。定期触发输出时间片中的计算结果,清空计算结果—Emitter。增量计算模型削弱了分布式系统中单台机器的交易状态,简化了分布式计算系统的实现,提高了整个系统的性能。实时存储在TA系统中,实时存储的数据是需要通过Web显示层读取的统计数据。这类数据有两个典型特征。频繁更新写作。更新频率取决于系统的实时性,每个统计结果的更新频率最快可达1秒。少量读取。与上述更新相比,“少量”。统计数据可根据业务逻辑分为两类。固定数据:主要是URL、搜索关键词等数据。理论上,这部分数据不断增加,不会修改旧数据。动态数据:主要是经常更新的结果统计数据。这部分数据需要不断更新。例如,www.qq.PV和UV在com域名下的统计结果。考虑到TA实时统计数据的特点,我们选择NoSQL实现我们的存储系统;同时,LevelDB和Redis分别用于存储两种不同的数据类型。实时存储Redista的主要部件。考虑到TA系统本身是一个相对完善的分布式集群系统,我们需要的存储部件是“notclustering,butsharding”。也就是说,像HBase和MongoDB这样的“重武器”并不适合TA,NoSQL数据库中的“瑞士军刀”Redis以其出色的性能进入了我们的视野。同时,TA的结果数据类型也比较丰富,就像站点PV一样、UV、VV、IP等Hash类型的数据也有用户访问轨迹等set类型的“动态数据”,而Redis丰富的数据结构很好地完成了这项任务。选择Redis的另一个原因是它足够简单,容易扩展。扩展Redis命令可以解决我们在实际应用中发现的所有问题。例如,TA中有一个应用程序场景:存储在Redis中的数据通常不是最终结果数据,而是需要进一步计算的中间数据,以消除ESA模块的状态。bouncerate这个指标(bouncerate=bouncesession数/totalsession数),需要前台查询两次,再做一次操作,最后显示给用户。在高并发的情况下,无疑会影响系统的响应速度。本着“移动计算而不是移动数据”的原则,我们对Redissort、hmget命令扩展,使其支持四个操作,并成功地将原来的两个查询优化为一个。扩展四个计算的另一个目的是“通过计算交换存储”。例如,需要将两种类型添加到组件总和的类型数据中,只能存储两种类型,并添加“通过计算交换”的总数据。除数据读取外,数据写入还可以优化类似的合并数据。例如,TA在写入URL的PV中、UV、VV、IP、当停留时间和bouncerate这六个指标时,需要调用6个Redis命令。事实上,这六个指标存储在同一个Hash中。通过扩展hmincrby命令,支持一次更改Hash的所有field,可以将调用次数优化到一次。上线后也取得了不错的效果,CPU在峰值时的利用率几乎下降了一半,同时上层模块ESA的吞吐量也大大提高。LevelDB是Redis的有效补充。考虑到Redis是一个内存数据库,使用内存的成本高于硬盘,因此选择引入基于磁盘存储的LevelDB作为补充。我们选择LevelDB存储“固定数据”,因为LevelDB的写作性能足够好,阅读性能远远超过了目前“在线少量阅读”的需求。在数据存储的架构设计中,由于实时数据服务和在线系统的可靠性要求较高,我们主要采用双写复制 Sharding的设计方法。双写复制。为了提高在线系统服务的可用性,所有数据存储将至少同步写两份。数据分片(Sharding)。基于域名:所有数据以域名为单位组织分片;任何域名都可以调整到任何分片;原则上,单个域名数据存储在一个分片中。动态调整(如图所示):只调整分片策略,不移动数据;根据数据量计算分片负载。另外,对于分片集群数据的查询,我们主要做了三项工作(如图所示)。Redisprotocolstack是一个相对完整的Redis协议栈,是上层应用的基础。直接使用Redis协议作为外部查询的通用协议,使外部用户可以通过当前的RedisClient直接查询访问数据。QueryRulengine是一个灵活的查询引擎。能够根据规则智能地在多个Redis中工作、查询LevelDB数据源,执行类join操作;还简单扩展其他异构数据源,如MySQL、HBase等。QueryComputeengine是一种实时查询计算引擎,可根据基本查询结果实时计算。本部分的主要目的是减少Redis数据空间的占用。展望未来,虽然TA已经在后台更新了数据秒,但显示模式仍然是传统的静态模式。后续TA会尝试更多的数据动态刷新,让站长第一时间了解网站的营销效果,时刻感受网站的心跳。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

房产经纪人获客神器有哪些?

  随着互联网的普及和发展,传统的房地产行业正在经历一次革命性的变革。房产经纪人在面对市场竞争时,需要善于利用各种现代化的获客神器来获取更多的客户资源,提高业绩达成率。因此,在今天的房地产市场中,获客神器成为了房产经纪人不可或缺的营销手段之…查看详情

网络运营推广的步骤有哪些

运营推广在整个运营环节里面起到非常大的作用,同时也是压力非常大的一个职业,身边围绕着的只有KPI和数据。要想做好运用推广,需要具有很强大的抗压能力,沟通能力,执行能力和数据分析能力。所以在接手一个项目的时候,要仔细构思以下思路。图片来源于网…查看详情

注册卫生纸商标多少钱?4个因素决定价格

商标作为具有唯一性和独占性,同时也是信息资源,具有传递信息的功能,其次是企业形象和信誉的集中表现,也是帮助企业参与市场竞争的有力武器。 这次说一说具体问题:注册卫生纸商标多少钱?注册费用是如何由哪4个因素决定。 1.商标是否为热门商标 “物…查看详情

有哪些软件可以无货源一件代发

最近有很多人问小编什么是货源一件代发,为了追赶潮流,小编特地去搜集了相关知识。无货源一件代发和电商类似。比如一个人并不会收到实体户但是他通过和顾客的聊天,让顾客购买并赚取差价,这就是无货源一件代发,本文小万将告诉大家有哪些软件可以无货源一件…查看详情

疫情印证了马云这句话:这种企业才有未来

穷则变,变则通,通则久。因为疫情,很多企业不得不转变思路,以绝境求生。76小时造出一台口罩机、4800场直播卖掉4.8亿元家具、20万线下餐馆上线饿了么、恒大半月爆卖10万套!成交数百亿,逆市大增118.3%……这就是过去两个月中国经济发生…查看详情

2022好用的股票走势软件 免费的股票走势软件

  看盘是一个股民必备的技能,那么目前看盘用那些软件比较好呢?目前用户量比较多的软件主要有腾讯自选股、同花顺、东方财富及雪球等,下面万商云集小编就为大家推荐几款非常实用的股票走势软件,希望各位朋友能喜欢。。!  腾讯自选股  腾讯自选股可以…查看详情

做翻译必备的4款翻译辅助工具

对于文本的翻译,我们可以借助软件来进行,因为,有些人的文化比较有限,但是,他的工作是需要进行翻译的,所以,不会翻译给自己的工作造成了很大的困扰,大家可以看一下翻译软件哪个好? 1、百度翻译 一样是在引擎搜索衍化出来的一款翻译…查看详情

手游排行榜 2021最热门手机游戏

现如今,最受欢迎的就是智能手机,想必许多台式电脑已经被智能手机给代替了,包括在游戏这方面,每一款游戏都在不断地出行手机游戏,可以让大家用手机就可以玩到游戏,那么,手游排行榜有什么。 1、《艾尔多战记》 有一种手机版饥荒那类荒…查看详情

会员管理软件是什么?如何选择好一个会员管理软件

随着社会经济不断发展,许多企业也迅速崛起,例如,超市、健身房、美容院等企业,人们为了便利,便在许多地方都办理了会员,那我们应该如何去查看查询自己的会员信息呢,下面我介绍什么是会员管理软件,哪一些会员管理软件比较好用。 一、什么是会员管理软件…查看详情

测温软件哪个好 好用的测体温软件推荐

  对于体温测量,大家会想到的工具一定是体温计,第一印象可能是传统的水银体温计,随着时代的不断发展变化,电子体温计、耳温枪、额温枪等更加先进的体温测量工具,逐渐取代了传统的体温计,然而,上述这些体温计比较适合于成人测量,对于家中有新生儿宝宝…查看详情

退货运费险是什么意思,怎么操作?

淘宝退货运费险怎么开通与退订?无法开通与退订 淘宝退货运费险,消费者是开通不了或者是退订不了的 淘宝退货运费险是由电商也就是卖家决定的,是否有退货运费险不需要客户开通或者是退订,商家购买了运费险,那么,消费者退货的话就会有运费险…查看详情

ipad怎么截屏? ipad截屏的几种方法

  优质答案(1)  这里提供两种方法,  方法一,点击小白点,选择屏幕快照即可截屏。  方法二,同时按住关机键和home键也可进行截屏。  扩展内容:iPad是由苹果公司于2010年开始发布的平板电脑系列,定位介于苹果的智能手机iPhon…查看详情

教学软件都有哪些 十大教师的常用教学软件

现在教师教学也开始不断的自动化,软件化了,下面万商云集小编给大家介绍几款老师常用的教学软件,希望能帮助到大家。   不慌,办法来了!打造一个新时代教学神器让你教学工作更轻松!  1.iSlide:让PPT设计简单起来!  PowerPoin…查看详情

PC端有哪些好用的视频播放器?这些软件装机必备

目前市面上存在许多不同的播放器,然而不同的视频播放器都有自己不同的特色与特点,你知道针对PC端有哪些好用的视频播放器吗?以下这些视频播放器可以说是装机必备软件,大家有需求的一定收藏! 1.暴风影音播放器 暴风影音播放器是暴风网际公司推出的一…查看详情

顺利办理计算机软件著作权的申请材料,可一次通过

计算机软件著作权在当下信息化的世界,其价值自然是不言而喻的,为了保护自己的权利,大家都会办理计算机软件著作权。下面将整理一份超详细的办理计算机软件著作权的申请材料,帮助大家在申请办理时尽量一次通过审核。图片来源于网络 办理计算机软件著作权的…查看详情

最新文章