分享支撑StackOverflow运营的网站硬件配置
2021-01-05 09:56:22 阅读(172) 评论(0)
问答社区网络Stackexchange由Alexa排名第54的Stackoverflow100多个网站组成。StackExchang拥有每月5.6亿PV的400万用户,但只有25台服务器,CPU负荷不高。它不使用云计算,因为云计算可能会减速,更难优化和消除系统故障。Stackoverflow仍然使用微软架构,这是非常实用的。微软的基础设施可以有效地工作,而且足够便宜,没有令人信服的理由需要改变。但这并不意味着它不使用Linux,它在有意义的地方使用Linux。Windows服务器运行的操作系统版本为Windows2012R2,Linux服务器运行Centos6.4。网站数据库MSSQL大小为2TB,全部存储在SSD上。它拥有11台运行IIS的Web服务器,2台运行HAProxy的负载平衡服务器,2台运行Redis的缓存服务器。Stackoverflow是一个IT技术问答网站,用户可以在网站上提交和回答问题。目前Stackoverflow拥有400万用户,4000万答案,月PV5.6亿,世界排名第54。然而,值得注意的是,只有25台服务器支持他们的网站,并保持非常低的资源利用率,这是一场高效率、负载平衡、缓存、数据库、搜索和高效代码的竞争。最近,Highscalability创始人Todhoff根据Marcocecconi的演讲视频“ThearchitectureofStackOverflow以及NickCraver的博文“WhatittakestorunStackOverflow总结了Stackoverflow成功的原因。出乎意料的是,Stackoverflow仍然严重使用微软产品。他们认为,由于微软的基础设施可以满足需求,而且足够便宜,因此没有理由做出根本性的改变。在需要的地方,他们也使用Linux。一切都是为了性能。另一个值得注意的是,Stackoverflow仍然使用纵向扩展策略,而不使用云。他们使用384GB内存和2TBSSD来支持SQLServers,如果使用AWS,成本可想而知。另一个不使用云的原因是Stackoverflow认为云会在一定程度上降低性能,同时也会增加优化和调查系统问题的难度。此外,它们的结构不需要横向扩展。高峰期是一个横向扩展的杀手级应用场景,但他们有丰富的系统调整经验。该公司仍然坚持Jeffatwood的名言——硬件总是比程序员便宜。Marcoceccon曾提到,在谈到系统时,有一件事必须首先理解——需要解决的问题类型。首先,从简单的角度来看,Stackexchange是用来做什么的——首先是一些主题,然后围绕这些主题建立一个社区,最后形成这个令人钦佩的问答网站。二是规模相关。Stackexchange正在快速增长,需要处理大量的数据传输,所以这些是如何完成的,特别是只使用25台服务器,以下是:状态Stackexchange有110个网站,以每月3到4个的速度增长。400万用户800万问题4000万答案世界排名54位,每年增长100%,月PV5.6亿。大多数工作日的峰值是每秒2600到3000。作为编程相关网站,一般工作日的要求会高于周末25台服务器SSD中存储2TB的SQL数据。每个webserver配备2个320GSSD。使用RAID1的每个ElasticSearch主机都配备了300GB的机械硬盘,SSDStackoverflow的读写比为40:60DBServer的平均CPU利用率为10个webserver,IIS2负载均衡器,1活跃,HAProxy4活跃数据库节点,实现tagengine的应用程序服务器采用MSSQL3,所有搜索都通过tag3服务器通过elasticsearch搜索2服务器支持分布式缓存和消息2Networks(Nexus5596 FabricExtenders)2cisco5525-xasas2cisco3945routers主要服务于stackexchangeapi的两个只读SQLServersVM,用于部署、域控制器、监控、运维数据库等场合。——Fast.NETJSONSerializer,基于Sigil的Daper-微型ORMUIUI有一个信息收件箱,用于新徽章获取、用户发送信息、重大事件发生时的信息收集,并由WebSockets支持。通过Elasticsearch实现搜索箱,使用REST接口。搜索箱通过Elasticsearch实现,并使用REST接口。由于用户提出问题的频率很高,很难显示最新的问题,每秒都会出现新的问题。因此,有必要开发一种关注用户行为模式的算法,只向用户展示他们感兴趣的问题。它使用了基于Tag的复杂查询,这就是为什么要开发独立的Tagengine。用于生成页面的服务器端模板。服务器25台服务器未满载,CPU利用率不高,SO单独计算(StackOverflow)只需要5台服务器。除执行备份时,数据库服务器资源利用率约为10%。为什么这么低?因为数据库服务器有384GB内存,webserver的CPU利用率只有10%-15%。纵向扩张还没有遇到瓶颈。在正常情况下,使用这种流量横向扩展大约需要100到300台服务器。简单的系统。基于.Net,只有9个项目,其他系统可能需要100个。之所以使用这么少的系统,是为了追求极限的编译速度,需要从系统开始时进行规划,每台服务器的编译时间约为10秒。与流量相比,11万行代码非常少。使用这种极简主要是基于几个原因。首先,不需要太多的测试,因为Meta.stackoverflow本来就是一个与bug讨论社区的问题。其次,Meta.stackoverflow也是软件测试网站,如果用户发现问题,往往会提出并给出解决方案。纽约数据中心采用Windows2012,已升级为2012R2(Oregon已升级),Linux系统采用Centos6.4。SSD默认使用Intel330(Web层等)Intel520进行中间层写入。例如,ElasticSearch数据层使用Intel710和S3700系统,RAID1和RAID10(任何4 RAID10用于上述磁盘。即使在生产环境中使用了几千元2.5英寸的SSD,也不怕失败。每个模型使用一个以上的备件,不考虑多个磁盘故障的情况。Elasticsearch在SSD上表现出色,因为SOwrites//re-indexes操作非常频繁。SSD改变了搜索的使用方式。因为锁的问题,Luncene.Net不能支持SO的并发负载,所以他们转向ElasticSearch。在全SSD环境下,不需要围绕BinaryReader设置锁。异地备份-主数据中心位于纽约,备份数据中心位于Oregon。Redis有两个节点,SQL有两个备份,Tagengine有三个节点,elastic有三个节点,一切都是冗余的,同时存在于两个数据中心。Nginx用于SSL,在SSL终止时转换HAProxy。并非主从所有。一些临时数据只会放在缓存中。所有HTTP流量发送仅占总流量的77%。Oregon数据中心的备份和其他VPN流量也存在。SQL和Redis备份主要产生这些流量。数据库MSSQLServerStackexchange为每个网站设置了数据库,所以Stackoverflow和Serverfault等等。在纽约的主数据中心,每个集群通常使用一个主和一个阅读备份配置,并在Oregon数据中心设置备份。如果Oregon集群运行,纽约数据中心的两个备份将只读取和同步。为其他内容准备的数据库。这里还有一个存储登录凭证和聚合数据的“网络范围”数据库(大部分是stackexchangege).com用户文件或API)。CareersStackOverflow、stackexchange.com和Area51都有自己独立的数据库模式。模式的变化需要同时提供给所有网站的数据库。它们需要向下兼容。例如,如果您需要重新命名一个列,它将非常麻烦。这里需要多个操作:添加一个新列,添加两个列上的代码,为新列写数据,更改代码,使新列有效并删除旧列。不需要分片,一切都是通过索引解决的,数据体积也没那么大。如果有filteredindexes的需求,为什么不更有效呢?常见的模式只在DeletionDate=null上做索引,而其他则是指定类型的枚举。每个votes都设置了一个表,比如一个表给postvotes,一个表给commentvotes。大部分页面都可以实时渲染,只是为了匿名用户缓存,所以没有缓存更新,只有重新查询。Scores是非标准化的,所以需要经常查询。它只包括IDS和dates,postvotes表目前约有56454478行,使用索引,大部分查询都可以在几毫秒内完成。Tagengine完全独立,这意味着核心功能不依赖任何外部应用程序。它是一种巨大的内存结构数组结构,专门用于SO用例优化和重负载组合预计算。Tagengine是一种简单的windows服务,在多个主机上运行冗余。CPU利用率基本保持在2-5%,三台主机专门用于冗余,不负责任何负载。如果所有主机同时出现故障,网络服务器将Tagengine加载到内存中并继续运行。与传统ORM相比,Dapper无编译器校验查询。使用编译器有很多好处,但在运行过程中仍然存在fundamentaldisconect问题。同时,更重要的是,由于生成nastySQL,通常需要找到原始代码,而QueryHint和parameterization控制等能力的缺乏使得查询优化更加复杂。编码过程中的大多数程序员都是远程工作。他们选择编码地点进行快速编译,然后运行少量测试。一旦编译成功,代码将转移到开发、交付和准备服务器,通过功能开关将新功能隐藏在同一硬件上作为其他站点进行测试,然后转移到Meta.每天都有成千上万的程序员在使用stackoverflow测试,一个很好的测试环境如果通过就会上线,静态类和方法被广泛应用于更广泛的社区进行测试。为了更简单、更好的性能编码过程非常简单,因为复杂的部分被包装到库中,这些库被开源和维护。.由于使用了一些社区共享代码,Net项目的数量非常低。.由于使用了一些社区共享的代码,Net项目的数量非常少。开发人员同时使用2-3个显示器,多个屏幕可显著提高生产效率。在浏览器、CDN和代理服务器中缓存所有5级缓存1级是网络级缓存。2级由.Htttpruntimenet框架.在每个服务器的内存中,Cache完成。三级Redis,分布式内存键存储,在多个支持同一站点的服务器上共享缓存项。四级SQLServercache,整个数据库,所有数据都放在内存中。5级SSD。通常只有在SQLServer预热后才生效。例如,每个帮助页面都有缓存,访问一个页面的代码非常简单:使用静态方法和类。从OOP的角度来看,它确实很糟糕,但它非常快,有利于简化编码。缓存由Redis和Dapper支持。为了解决垃圾收集问题,模板中的一类只使用一个副本,并在缓存中建立和保存。包括GC操在内的一切监控。据统计,当间接层增加GC压力达到一定程度时,性能会显著降低。CDNHit。鉴于查询字符串是基于文件内容的哈希,只有在新建立时才会再次取出。每天3000万到5000万Hit,带宽约为300GB到600GB。CDN不是用来处理CPU或I/O负载的,而是帮助用户更快地获得答案,每天部署5次,而不是建立太多的应用程序。主要原因是直接监控性能可以尽可能最小化。关键产品建立后,可以通过强大的脚本复制到每个网页层。每个服务器的步骤是:通过
推荐阅读
- PPT制作软件推荐,告别PPT用什么软件制作的疑惑
现在社会,许多大学生和上班族对PPT的制作并不陌生,在平时的工作和学习生活中都会用到PPT,PPT用什么软件制作呢?一起看看我为大家整理的PPT制作软件推荐吧。 1.OPlus OPlus是微软官方模板网站。涵盖了PPT模板…查看详情
- 自己在家做电商需要些什么设备
电商是近年来非常火热的行业,越来越多的人开始选择在家做电商。如果你也想在家做电商,那么需要以下东西: 一、基础设施 基础设施是开展电商的第一个环节,包括了硬件设备和软件环境。对于硬件设备而言,一般需要一台电脑、一台打印机、一个摄像头…查看详情
- 农产品要商品化、品牌化、电商化,互联网推广是什么角色?
农产品滞销,农民“丰产不丰收”是常见社会现象,也是国家农业部高度重视并极力解决的问题。互联网推广是什么?是渠道,也是销售。2020年上半年的网络数据统计显示,“互联网+农产品”能够有效帮助农产品销售,在一定程度上解决农产品滞销问题,为农户解…查看详情
- 【小程序管理系统】后端精细化让你从起点就有优势
小程序分为企业版和个人版,两者的区别在于,个人版不支持微信认证,不能对外发布只能作为测试使用;企业版需要以个体户、企业或组织机构的营业执照进行注册。小程序的开发涉及到前端和后端,后端是指小程序管理系统,负责上传产品和内容,前端负责小程序的页…查看详情
- 选择网站开发建设公司的正确姿势
企业官网对于企业的营销推广非常重要,它企业品牌形象和企业文化展示的重要渠道。一个企业如果没有自己的官方企业网站,就很难向客户传递自己的品牌理念、产品信息,无法让客户更清晰的认识自己,所以很多中小企业都会选择网站开发建设公司来为自己建设官网。…查看详情
- 字符串是什么意思 哪些属于字符串
相信很多没用接触到计算的朋友都不知道字符串是什么意思,在计算机技术领域比较常用,在编程代码这块也比较常见,下面万商云集小编给大家来详细介绍一下字符串的相关常识。 什么是Python中的字符串? 我们许多熟悉C,C++等编程语言的人都会得…查看详情
- 网络测速软件有哪些 网络测速app推荐
现在很多的用户都比较关心自己的网速问题,现在市面上的网络测速软件也是有很多的,下面万商云集小编给大家来详细介绍一下网络测速软件有哪些 网络测速app推荐这方面的内容。希望能帮助到大家。 1.speedtest 测网速speedtest…查看详情
- erp解决方案能给中小企业带来什么?
erp解决方案有什么具体的功能?它能够帮助中小企业带来什么?图片来源网络erp解决方案可以从每个部门、每个业务流程中获取信息,打破部门之间的信息壁垒,将企业发展所需的信息高度集成。生产、销售、市场、分销、财务、人力资源、项目管理、存货管理、…查看详情
- eclipse下载教程 eclipse如何下载
macbookpro怎么下载eclipse?在macbookpro上下载eclipse的步骤如下: 1.打开浏览器,进入eclipse官网; 2.在“DownloadPackages”选项中选择需要的Eclipse版本; 3.选择操作…查看详情
- 淘宝营销活动有哪些类型?3种常见营销类型
淘宝活动是卖家网店流量的重要来源之一,无论是收费还是免费,网店一旦参加,都将获得巨大的流量,那么常见的淘宝营销活动有哪些类型?综合看来,淘宝网的活动非常多,常见可分为平台活动、渠道活动和类目活动三种类型。 1.平台活动 淘宝网(淘宝集市、…查看详情
- linux系统和win系统有什么区别
Linux系统和Windows系统是两种广泛使用的操作系统,它们具有许多区别。以下是关于这两个系统之间的一些主要区别的简要介绍。1. 开源 vs 闭源:Linux是开源软件,意味着它的源代码对用户开放,可以由任何人进行修改和分发。相比之下,…查看详情
- 知识产权如何申请 2023年知识产权申请流程
知识产权涵盖的范围很广,包括了专利权、版权等,而专利权包括发明专利权、实用新型专利权、外观专利等,版权包括软件著作权、文字版权、音乐版权等,还有商标权.下面小编就给大家来详细介绍一下知识产权如何申请 2023年知识产权申请流程这一块…查看详情
- 商业网站推广的方法有哪些?
优质答案(1) 网站推广传统的方法:搜索引擎、微信朋友圈等,这些方法属于免费推广的范畴,但关于电商方面的推广确没有涉及,下面来仔细聊聊关于电商推广的一些方法 一、搜索 搜索引流是我们平时最常见的一种。买家不论在哪个平台购物,首先第…查看详情
- 做小程序代理是商机也是挑战
小程序刚出来的时候,嗅到这股潮流的人早就在这个领域赚到钱了,小程序至今也有2年时间了,没有哪个互联网产品能够这么快风靡起来,不论是商家还是用户都觉得小程序非常实用,不仅不站手机内存,可以节省大量储存空间。 图片来源于网络站在风口上,就能开启…查看详情
- 会员卡管理软件助力经营,这4款帮商家get营销诀窍
无论是线下经营店铺还是线上虚拟商铺,越来越多的商家重视店面会员机制所带来的经营增值效应,而随着经营规模的不断扩大,经营者对于会员及会员卡的管理工作量也在增加,此时就需要借助专业的会员卡管理软件来助力经营,今天就介绍4款能够帮助商…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






