服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

解析Facebook的大数据处理架构及应用的软件

2020-12-31 13:56:39 阅读(198 评论(0)

Facebook大数据技术架构的演进路线 Facebook一直是大数据技术中最活跃的应用程序,因为它拥有巨大的数据量。数据显示,2011年压缩数据为25PB,未压缩数据为150PB,每天产生的未压缩新数据为400TB。大数据技术广泛应用于广告、新闻源、新闻/聊天、搜索、网站安全、具体分析、报告等领域。Facebook也是Apache大数据开源项目的最大贡献者之一。Facebook于2007年左右正式转向Hadoop计算框架,随后向Apache基金会贡献了著名的Hive、ZooKeeper、Scribe、目前,Facebook的开源过程仍在积极推进,如cassandra。Facebook大数据技术架构经历了三个演变阶段。   基于Hadoop的Facebook早期大数据技术架构、HBase、Hive、基于Scribe等开源工具。日志数据流由HTTP服务器生成,通过日志收集系统Scribe传输到共享和存储NFS文件系统,然后通过小时Copier/Loader(即Mapreduce作业)将数据文件上传到Hadop。数据摘要是基于HiveSQL语言的日常流水操作,结果将定期更新到前端Mysql服务器,以便通过OLTP工具生成报告。Hadoop集群节点有3000个,可以很好地解决可扩展性和容错性问题,但早期系统的主要问题是整体处理延迟较大,从日志生成开始~2天后才能得到最终报告。   Facebook目前的大数据技术架构在早期架构的基础上优化了数据传输通道和数据处理系统,如图所示,主要分为分布式日志系统Scribe、HDFS和HBase分布式存储系统、分布式计算和分析系统(MapReduce、Puma和Hive)等。Scribe日志系统用于收集大量HTTP服务器的日志数据。Thrift是Facebook提供的跨语言服务开发的软件框架、Java、PHP、在Python和Ruby之间实现无缝支持。使用ThriftRPC调用Scribe日志收集服务进行日志数据汇总。ScribePolicy是将元数据传输给Scribe客户端和ScribeHDFS的日志流量和模型管理节点,收集的日志数据存储在ScribeHDFS中。Facebook将早期系统优化的数据通道称为DataFreway,可以处理峰值9GB/s的数据,端到端延迟在10s以内,支持2500多种日志类型。DataFreeway主要包括四个组件,Scribe、Calligraphus、ContinuscopierPTail。Scribe用于客户端,负责通过ThriftRPC发送数据;Calligraphus在中间层整理数据并写入HDFS。它提供日志类型的管理,辅助Zookeper;ContinusCopier将文件从一个HDFS复制到另一个HDFS;多个HDFS上的PTail并行tail目录,并将文件数据写入标准输出。在目前的体系结构中,一些数据处理仍然通过MapReduce批量处理,存储在中央的HDFS每天通过Hive进行分析和处理。在目前的架构中,一些数据处理仍然通过Mapreduce进行小时处理,存储在中央HDFS中,每天通过Hive进行分析和处理。另一部分接近实时的数据流通过Puma进行分钟处理。Facebook为特殊分析提供Peregrine(Hipal)分析提供Nocron工具的工具和周期性分析。   Facebook未来大数据技术架构的雏形已经出来。首先开源的是Corona,Corona可以取代Hadoop系统中的Mapreduce,类似于Yahoo提出的YARN。Corona最大的进步之一是它的集群管理器是基于CPU的、内存和其他操作处理所需资源的管理可以使Corona不仅可以处理Mapreduce操作,还可以处理非Mapreduce操作,使Hadoop集群的应用领域更加广泛。第二个是Facebook最新的交互式大数据查询系统Presto,类似于Cloudera的Impala和Hortonworks的Stinger,解决了Facebook快速膨胀的海量数据仓库快速查询需求。Facebook表示,使用Presto进行简单的查询只需几百毫秒,即使是非常复杂的查询,也只需几分钟就可以完成,它在内存中运行,不会写入磁盘。三是Wormhole流计算系统,类似于Twiitter的Storm和Yahoo的Storm。-YARN。第四个重要项目是Prism,它可以运行一个超大的Hadoop集群,可以连接全球数据中心,并在数据中心停止时立即重新分布数据,这类似于谷歌的Spanner。   Facebook的大数据技术架构演变路径代表了大数据技术的发展路线。值得称道的是,开源是Facebook的一贯路线,与Yahoo等公司一起为大数据技术的发展做出了巨大贡献。Facebook使用的软件在某些方面仍然是LAMP网站,但Facebook已经做出了必要的改变、扩展和修改,以配合大量其他组件和服务。例如,Facebook仍然使用PHP,但Facebook已经重建了一个新的编译器,以满足在其Web服务器上加载本地代码的需要,从而提高性能;Facebook使用Linux系统,但为了自己的目的,也进行了必要的优化。(尤其是网络吞吐量);Facebook使用MySQL,但也优化了。还有定制的系统,比如,Haystack—存储高度可扩展的对象,用于处理Facebook的巨大图片;Scribe—Facebook日志系统。以下是Facebook在世界上最大的社交网站上使用的软件。MemcachedMemcached是一款相当有名的软件。它是一种分布式内存缓存系统。Facebook作为Web服务器和MySQL服务器之间的缓存层,也有大量的网站。多年来,Facebook在Memcached及其相关软件(如网络栈)上做了大量的优化工作。Facebook运行成千上万的Memcached服务器,借用并及时处理TB级缓存数据。Facebook拥有世界上最大的Memcached设备。与本地服务器上的代码相比,HiphopforPHP的运行速度相对较慢。PHPHop将PHP代码转换为CHP代码 编译时代码,提高性能。由于Facebook非常依赖PHP来处理信息,有了HipHop,Facebook在Web服务器方面更是如虎添翼。HipHop诞生过程:在Facebook中,一组工程师(最初是3位)花了18个月的时间研发而成。HaystackHaystack是Facebook高性能图像存储/检索系统。(严格来说,Haystack是一个对象存储,所以它不需要存储图片。)Haystack的工作量超大。Facebook上有200多亿张图片,每张图片保存在四种不同的分辨率,因此Facebook上有800多亿张图片。Haystack的作用不仅仅是处理大量图片,它的性能也是亮点。正如我们前面提到的,Facebook每秒处理大约120万张图片,不包括其CDN处理的图片数量。这是一个惊人的数据!!!BigPipeBigPipe是Facebook开发的动态网页处理系统。Facebook为了达到最佳,用它来处理每个网页的块(也称为“”Pagelets”)。例如,聊天窗口是独立检索的,新闻源也是独立检索的。这些Pagelets可以并发检索,性能也可以提高。这样,即使网站的某一部分停用或崩溃,用户仍然可以使用。CassandraCassandra是一种无单点故障的分布式存储系统。它是前NoSQL运动的成员之一,现已开源(已加入Apache工程)。Facebook用于邮箱搜索。除Facebook外,Cassandra还适用于许多其他服务,如Digg。ScribeScribe是一个灵活的日志系统,Facebook用于各种内部用途。Scribe用途:处理Facebook级别日志,一旦生成新的日志分类,Scribe将自动处理。(Facebook有上百个日志分类)。HadoopandHiveHadop是一个开源Map/Reduce框架,可以轻松处理大量数据。Facebook用于数据分析。(前面说过,Facebook的数据量是超海量的。)Hive起源于Facebook,Hive可以使用SQL查询,使非程序员更容易使用Hadoop。(注1:Hive是一种基于Hadoop的数据仓库工具,可以将结构化的数据文件映射成数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为Mapreduce任务。)VarnishVarnish是一种负载均衡的HTTP加速器,也用于缓存内容的快速处理。Facebook用Varnish处理图片和用户照片,每天处理10亿级请求。和Facebook的其他应用一样,Varnish也是开源的。Facebook可以顺利运行,这也有利于其他方面。虽然上面提到了一些构成Facebook系统的软件,但处理如此庞大的系统本身就是一项复杂的任务。因此,下面还将列出一些能够使Facebook顺利运行的东西。虽然这里不能深入*件,但*件绝对是Facebook达到前所未有规模的重要因素。例如,像其他大型网站一样,Facebook也使用CDN来处理静态内容。Facebook还在美国西部的俄勒冈州建立了一个大型数据中心,可以随时添加服务器。当然,除了前面提到的,还有很多其他的软件没有提到。但是,希望能突出其中非常有特色的。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

外贸独立网站运营的天赋优势、环境优势和基本技巧

外贸独立网站是拥有独立域名和独立网站自主权的对外贸易网站,优势在于“独立”,独立代表了营销推广不受限制,而外贸独立网站运营的核心就在于“独立”优势,可以将网站运营成“外贸营销型网站”,这是外贸独立网站的第一优势。图片来源于网络● 外贸独立网…查看详情

网上卖房子怎么发布

  随着互联网的发展,网上买卖房屋已成为一个非常流行的趋势,在互联网上发布房产信息已经成为很多房主和经纪人的常规操作。而如何发布房屋信息以便快速被寻找,吸引更多的潜在买家,是一个非常重要的问题。下面将详细描述如何在网上卖房子。  1.选择合…查看详情

录屏软件哪个好?五款免费好用的录屏软件推荐!

随着经济的快速发展,手机的设计也越来越多样化,手机逐渐出现了录屏功能,但是还有很多人想要录屏形式多样化,新颖化,不用着急,今天我就来给大家盘点一下那些免费的录屏软件,包大家满意!1.PPT录屏经常需要录制网课的老师,PPT录屏就是最好用且做…查看详情

品牌是知识产权吗?权威且全面的回答

品牌是知识产权吗?在有关知识产权的采访中,中国社会科学院法学研究所研究员李德顺充分回答了这个问题,他表示:“品牌本身实际上是我们讲的商标、商号、商誉和知识产权的统称,品牌本身并不是法律的术语,所以要保护品牌才能发展品牌,而保护品牌主要要靠知…查看详情

内衣网店代理商是怎么做的,需要符合哪些条件

想做卖衣服的网店代理,要怎么弄?首先,衣服代理是需要代理费,找一个招衣服代理的厂家,商家,和他们咨询,当然,交易方式,售后,都需要网店为基础,不然再诱人也不要信,基本钱都是有去无回在淘宝上做代理商需要什么条件?1年满16.有身份证,符合注册…查看详情

青岛标志设计需要知道那些要素?

企业logo设计对图片像素和比例的要求有哪些?网页设计的标准尺寸有800*600、1024*768的,在PS里可以在800*600的状态下显示全屏,页面的下方有不会出现滑动条的,尺寸为740*560左右,这些说的比较笼统,如果你想要真正专业…查看详情

专访银都餐饮丁文:通过数字化转型,为客户提供高效迅捷的服务

银都餐饮设备股份有限公司总部位于浙江杭州,已有18年商用餐饮设备行业的历史。公司产品涵盖商用餐饮冰箱、西厨设备、自助餐设备等,客户以各类商业餐饮店、中大型酒店为主,具有专业的生产流水线,产品质量优越,售后服务高效。作为国内商用餐饮设备的龙头…查看详情

离线看小说哪个软件好-离线txt小说阅读器

小说现在已经成为了我们日常生活中必不可少的一部分,当我们工作累了可以看小说解压,其中包括言情、幽默等一些小说,能缓解我们的心情,那么,很多人都不清楚离线看小说哪个软件好一些。1、快读免费小说快读免费小说是一款软件,该软件的软件大小为2.6M…查看详情

气体灭火系统的类型有几种

气体灭火系统是一种常用于保护重要设备和场所的灭火装置,其工作原理是通过释放特定类型的气体来控制、扑灭火灾。以下是几种常见的气体灭火系统类型:1. 灭菌剂气体灭火系统:这种系统使用化学灭菌剂,如二氧化碳(CO2)、卤代碳化合物或氟化物等,通过…查看详情

微信小程序开发平台具有哪些优势?五大优势详解

微信小程序可以说得到了很好的发展,而且使用量也是非常高的,能够带来更多的引流。正是因为这样,很多的企业和电商也都会选择制作微信小程序,这样才能够得到更好的发展,其实微信小程序开发平台是很不错的,能够帮助企业带来更好的发展,也能够…查看详情

2022年六大iphone备份软件

大家是否有过没有及时备份一些信息而消失的烦恼,这就是苹果手机的弊端,今天我就来给大家推荐几款2022年六大iphone备份软件,保证这些软件会是你所喜欢的软件,你肯定不会放弃他们,好好选择适合你的软件吧。 1.通讯录云备份…查看详情

手机通讯录管理软件有必要用吗?用了才知道好

手机显然已经成为人们生活当中不可或缺的重要工具,非智能机时代手机通讯录成为人们与外界连接的号码媒介,在智能机时代手机通讯录的管理同样具有不可替代的作用与意义。尤其是手机内储存了大量牵扯人际关系的手机号码时,人们总是希望能够对手机…查看详情

数据库管理工具有哪些?2021年最火的6款数据库管理工具推荐

数据库管理工具是一种用于管理数据库管理工具的计算机软件系统,一般有储存、截取、安全保障、备份等基本功能。数据库管理工具主要完成数据管理的操作及管理功能,实现数据库管理工具对象的建立.数据库管理工具资料的查询。增加、删除及使用者管理数据库管理…查看详情

怎么找买房的精准客户

  如何找到买房的精准客户  房地产行业一直是一个竞争激烈的行业。作为买房的精准客户,往往是房地产公司最为*的对象。然而,在如今市场竞争加剧、信息过载的时代,如何找到买房的精准客户,成为了房地产公司需要面对和解决的难题。本文将从以下几个角度…查看详情

不懂分析没法做专业报表?瑞云服务云这款报表设计器可以拯救你

当前,经济的全球化、技术的进步使得制造企业提供的产品越来越趋向于同质化,为了应对越来越激烈的竞争,企业必须打造出独特的、高附加值的服务,才能提升产品差异化,增加企业核心竞争优势。 但是真正做到满意服务,使服务展现出无可取代的价值,就需要一款…查看详情

最新文章