在相关大数据管理的方面,看看优酷土豆的经验。
2021-01-04 09:18:20 阅读(153) 评论(0)
姚键是优酷土豆集团CTO。据他介绍,在优酷新推出的主页上,导航栏上有21个视频分类和21个不同类型的内容,这意味着优酷会有各种各样的用户观看视频。如果你想向不同的用户推荐他们最喜欢的视频,这取决于一种叫做“协同过滤推荐”的技术。百度百科介绍协同过滤推荐(CollaborativeFilteringrecommendation):“它正迅速成为信息过滤和信息系统中非常流行的技术。与传统的基于内容过滤直接分析内容的推荐不同,协同过滤分析用户的兴趣,找到指定用户的类似(兴趣)用户,结合这些类似用户对某一信息的评价,形成系统预测指定用户对该信息的偏好。“这是亚马逊、谷歌和其他互联网巨头使用的技术。亚马逊会告诉你“购买A产品的客户也会同时购买B产品”。在Youtube上,视频播放结束后,相关推荐视频会立即出现。事实上,优酷的视频推荐涉及数百个参数。每次要调整参数,都要手动调整十几个甚至几十个参数。每天推荐视频的数据模型涉及数十亿的数据。小参数调整的后果可能是当天视频观看带来数百万的增长,也可能是算法稳定后的未来几周甚至几个月视频观看量的曲线变化。当然,数字证实,通过这种协同过滤向用户推荐的视频是可靠的,因为在大量视频中找到他们最喜欢的视频的成本非常高,推荐视频的开放率也令人满意。挖掘和分析优酷土豆心中的“大数据”数据只是推荐视频中的一个小意思。2010年优酷推出的“优酷指数”进一步强化了大数据精神,展示了视频播放周期、用户核心特征、用户播放行为、视频热度排名等数据。姚健介绍了优酷指数诞生的背景:“2010年,优酷已成为PC互联网时代最具影响力的视频网站。优酷希望在加强优酷品牌的同时,在行业内树立基准,创造优酷指数的概念。“今年,优酷指数演变为“中国网络视频指数”,增加了土豆和移动客户端的视频数据。对数字感兴趣的用户可以从该指数中读取大量内容。“中国网络视频指数”作为一种平台产品,在优酷土豆集团中的参考价值无处不在,从广告销售到版权购买,再到播放器产品的优化等。据姚健介绍,优酷土豆集团推出的数据报告为节目制作人、影视公司、第三方分析机构了解视频节目的播放信息和观众分析提供了依据;在广告销售方面,可以向广告商展示用户行为特征,分析广告价值;在购买版权时,可以帮助根据指数的方向做出决策;在公司内部,即使是播放器产品的用户体验优化,查看数据分析结果,查看按钮的放置和使用频率等。这些价值是显而易见的,以及我们在表面上看不到的东西,通过数据分析的结果来指导优酷土豆集团的自制内容。“例如,优酷有很多自制的内容,有很多微电影、综艺节目等,这些广播数据可以显示用户喜欢什么主题,用户看不见,在哪里拖观看,一系列用户行为可以清楚地告诉内容制作人,如何编辑视频,如何选择内容主题。“例如,优酷有很多自制的内容,有很多微电影、综艺节目等,这些播放数据可以显示用户喜欢什么主题,用户看不见,在哪里拖放观看,一系列用户行为可以清楚地告诉内容制作人,如何编辑视频,如何选择内容主题。”姚键说。 事实上,这个过程也是一个分析视频质量的过程。在优酷土豆的搜索和推荐中,根据视频质量进行排序,反过来又提高了推荐的成功率。然而,大数据读取的数据远不止这些。每部电影和电视剧播出后都会有相应的数据。哪些演员受欢迎,哪些主题受欢迎,你可以通过分析数据慢慢找到背后的原因,讲述这个受欢迎的故事,这是一个可见的未来。优酷土豆用Spark改进大数据分析。一个似乎被媒体传播得太多的词确实在逐渐影响和改变我们的生活。有些人可能认为大数据在中国仍然只是一个噱头,但在当前的中国互联网领域,大数据和大数据产生的生产力正在不知不觉地促进业务发展,并为大多数中国网民提供更好的服务。作为中国最大的视频网站,优酷土豆和其他国内互联网巨头一样,率先看到了大数据对公司业务的价值。早在2009年,它就开始使用Hadoop集群。随着近年来业务的快速发展,优酷土豆率先尝试了仍处于大数据前沿的Spark/Shark内存计算框架,很好地解决了机器学习和图形计算迭代的瓶颈,使公司大数据分析更加完善。说到大数据,Mapreduce的痛苦自然不能不提Hadop。说到大数据,我们必须提到Hadoop。HDFS已成为大数据公认的存储,Mapreduce作为其匹配的数据处理框架,在大数据开发的早期阶段具有重要价值。但由于Mapreduce在设计上的约束只适用于离线计算,在实时性上仍存在很大的不足。随着业务的发展,行业对实时性和准确性的需求越来越大,单纯依靠Mapreduce框架显然无法满足业务需求。优酷土豆集团大数据团队技术总监陆学宇表示:“现在我们用Hadoop来处理一些问题,比如迭代计算,磁盘和网络每次都要花很多钱。特别是每次迭代计算都要在磁盘上写下结果,然后再读回来。此外,计算的中间结果需要三个备份,这实际上是浪费。“据报道,优酷土豆Hadoop大数据平台于2009年采用,最初只有10多个节点,2012年集群节点达到150个,2013年达到300个,每天处理200个TB。优酷土豆决定引入Spark/Shark内存计算框架,以满足图计算迭代的需要,因为Hadoop集群已经逐渐无法胜任某些应用程序。Spark是伯克利大学AMP实验室开发的通用并行计算框架。Spark已成为继Hadoop之后的另一个热门开源项目。目前,英特尔等企业已加入开源项目。“当我们的大数据平台对快速需求的响应延迟,特别是当商业智能BI和产品研究分析需要多次对大数据进行Drildown和Drillup时,等待成为效率杀手。优酷土豆集团大数据团队技术总监陆学宇说。目前,大数据分析主要应用于互联网公司的广告、报表、推荐系统等业务。广告业务需要大数据进行应用分析、效果分析、定向优化等,推荐系统需要大数据优化相关排名、个性化推荐和热点点击分析。优酷土豆是一家典型的互联网公司。目前,大数据分析平台的主要工作是运营分析、机器学习、广告定位优化、搜索优化等。优酷土豆集团大数据团队技术总监陆学宇表示:“优酷土豆大数据平台已经使用多年,突出问题主要包括:一是商业智能BI,公司分析师需要等待很长时间才能得到结果;二是大数据计算,如一些模拟广告,计算量很大,效率要求高,用Hadoop消耗大量资源,响应慢;最后,机器学习和图形计算的迭代操作也需要大量的资源,而且速度非常慢。因此,Hadoop和Mapreduce不适用于复杂的任务、交互式查询和流在线处理。Spark/Shark的内存计算框架更适合各种迭代算法和交互式数据分析,每次都可以收集弹性分布式数据(RDD)操作后的结果存储在内存中,下一个操作可以直接从内存中读取,节省了大量的磁盘IO,大大提高了效率。优酷土豆集团大数据团队大数据平台架构师傅杰说:“有些应用场景不适合Mapreduce处理。优酷土豆集团大数据团队大数据平台架构师傅杰说:“有些应用场景不适合Mapreduce处理。通过对比,我们发现Spark的性能比Mapreduce提高了很多。“例如,在图计算方面,视频和视频之间的相似关系构成了一个图谱,通过图谱进行聚类,然后向用户推荐视频。优酷土豆集团大数据团队技术总监陆学宇说。优酷土豆集团大数据团队技术总监陆学宇表示:“我们已经进行了图形计算测试。在四个节点的Spark集群上只需5.6分钟。对于相同规模的数据,单机实现需要80多分钟,内存已满,单机无法实现Scale-Out,更大规模的数据无法计算。“今天,数据处理要求非常快。例如,一些优酷土豆的客户和广告商往往需要暂时查看交付效果。因此,在前端应用不变的情况下,如果能更快地响应市场需求,就会变得非常有竞争力。市场瞬息万变,一些分析结果也需要快速响应成产品,Spark集成到数据平台上才能发挥这样的作用。优酷土豆集团大数据团队大数据平台架构师傅杰补充道。据了解,优酷土豆利用Spark/Shark大数据计算框架得到了英特尔的帮助。起初,优酷土豆不熟悉Spark和Scala语言。英特尔帮助优酷土豆设计出满足业务需求的具体解决方案,并帮助优酷土豆实现解决方案。此外,英特尔还对优酷土豆的大数据团队进行了Scala语言、Spark培训等。“作为国内视频行业第一家商业部署Spark/Shark方案的公司,优酷土豆从视频行业多元化分析的角度来看是一个非常好的方案。英特尔(中国)有限公司销售营销部互联网及媒体行业企业客户经理李志辉表示,未来英特尔将继续与优酷土豆在Spark/Shark合作,包括硬件配置优化和整体方案优化。未来:将Spark/Shark融入Hadoop2.0。对于大数据来说,Hadoop已经建立了一个相对完善的生态系统,特别是在Hadoop2.0版本推出后,它改善了许多缺点。事实上,Spark/Shark计算框架与Hadoop并不冲突,Spark现在可以直接在Yarn的框架上运行,成为Hadoop生态系统中不可缺少的一员。优酷土豆集团大数据团队大数据平台架构师傅杰说:“目前Hadoop2.0已经发布了release版本,我们已经启动了Hadoop2.0的升级预演。这也涉及到我们在1.0版本中修改的一些特征需要迁移和验证。我们希望在不影响业务的情况下实现平稳升级,预计明年Q1将完成升级。Hadoop2.0将是非常强大的,不仅是Mapreduce,还有Spark,允许用户根据不同的数据处理应用程序需求选择合适的计算框架。”
推荐阅读
- 好用的卫浴品牌有哪些 卫浴品牌排行榜前十名
目前国内来讲,主要以广东佛山、福建南安、河北唐山、河南长葛、四川简阳等几大卫浴生产基地。就产品配套措施完整度而言,还是以广东佛山的品牌为优,毕竟中国陶瓷城就坐落于佛山嘛。下面万商云集小编就给大家来详细介绍一下好用的卫浴品牌有哪些 卫浴品…查看详情
- 哪家的CRM能够算是好用的CRM
随着我国经济水平的不断上升,各行各业竞争激烈。许多的企业为有效的进行客户管理,都实施引进CRM系统,可是在面对众多的CRM产品,却不知道如何选择一款好用的CRM。如果选择错了,反而会成为企业的负担,因此选择一款好用的CRM真的尤为重要。接下…查看详情
- 域名重定向是什么意思
域名重定向(Domain Redirect)指的是将一直域名的访问请求自动重定向到另一个指定的域名或网址上。在互联网上,域名重定向是一个很常见的操作,对于网站的维护和运营非常重要,在实际应用中,域名重定向具有以下几个方面的作用: 1…查看详情
- 为什么ERP系统实施难?应该怎样规避风险
中小企业在信息数字化的道路上徘徊不前,并不是看不到先进的技术和理念,其核心原因是ERP系统实施困难的问题没有得到良好的解决。目前通过实施ERP来提高企业自身的成本、速度、管理、质量、科技等方面的竞争优势,已成为中小企业的当务之急。谁能先一步…查看详情
- 建设网站的步骤,手把手教你搭建优质网站
很多的企业为了能够带来更好的推广,都特别注重网站的建设,几乎现在大大小小的企业都有属于自己的网站。建立网站之后也能够得到很好的推广,能够将自己的产品更好的推销出去,吸引更多的客户。但是在建立网站的时候,也应该要了解相关的建站步骤…查看详情
- 拼图软件哪个好用 十大拼图软件排名
现在很多人拍照都离不开拼图这个点,市面上其实有很多的拼图软件,下面万商云集小编就给大家来详细介绍一下拼图软件哪个好用 十大拼图软件排名这方面的内容,希望能帮助到大家。 1.美图秀秀 美图秀秀是一款很受欢迎的图片处理软件,使用者不仅可以…查看详情
- 豆瓣排名前50电影
优质答案(1) 1、人生:《美国往事》 2、痛苦:《现代启示录》 3、信念:《肖申克的救赎》 4、哲思《第七封印》 5、执着《阿甘正传》 6、才华《东方不败》 7、爱情《罗马假日》 优质答案(2) 《最初的梦想》 影…查看详情
- 十大财务软件分享,总有一款适合你
随着时代的变迁,如今的财务早已经不同于以往的“账房先生”,仅凭算盘和纸笔就能指导“天下”。现在的企业拥有庞大的数据需要分析处理,以及各项数据申报,而这些都是离不开财务软件的辅助。但是对于选购财务软件,我们不仅要擦亮双眼,还要了解相关财务软件…查看详情
- 公司网站建设需要多少钱?包含4个部分费用
随着我国经济的不断进步,创业环境有了很大的改善。很多创业人士在创投初期就会开始着手打造公司网站,这是一个公司对外树立形象的重要途径,甚至有人说公司网站平台的成功打造就是创业成功的一半。那么就一定会有人问了,公司网站建设到底需要多少钱呢。下面…查看详情
- 解压文件的软件哪个好?好用的解压文件软件推荐
当我们接收一些文件的时候,很有可能是属于压缩的文件,那么这个时候想要查看文件,就应该对文件进行压缩,需要用到比较好的软件,能够压缩文件的软件很多。那么解压文件的软件哪个好?接下来就给大家详细的介绍几款比较好的解压文件的软件,希望…查看详情
- 会员卡管理系统价格影响因素有哪些?
会员卡管理系统价格影响因素有哪些?会员卡管理系统价格影响因素还是比较多的,比如说软件的开发成本等等,大家应该都知道,在软件开始上线之前需要经过很多环节,包括了软件需求方面的调研工作以及功能流程的原型确定,再就是到后期的编码开发、软件反复测试…查看详情
- erp有哪些品牌,可供企业选择
在如今,企业已难仅依靠自己内部资源在市场竞争中获得优势,还需将供应商、制造商、客户等集中利用,产生高效生产和经营、收获低成本、高效率的竞争优势,所以erp系统纷纷被企业所使用。那么现今市场上erp有哪些品牌可供企业选择呢?不妨接着往下看。图…查看详情
- 外贸独立站的建站技巧有哪些?
外贸独立建站,可能很多人并没有听说过这个名词,其实简单来说就是建立一个属于自己能够掌控的平台,而且是属于电商平台将商品传上去之后需要自己去进行推广去营销。因此在进行外贸独立站的建设时,也应该有掌握一些相关的技巧,这样在推广营销的…查看详情
- matlab下载哪个版本好
MATLAB2018a怎么下载安装与激活?答:mathworksmatlabr2018a中文版,64位版本,附带了相应的序列号和许可文件,可以完美成功激活软件,其详细的安装教程可参考下文,希望对你有帮助 matlab2018a 教程: …查看详情
- 人气火爆的言情小说排行榜,哪本是你的最爱?
每个人所选择的小说不相同,对于看完小说的感受也不一样,那么,想要快速的选出一部好的小说去看,就要提前了解一下言情现代小说排行榜都有哪些,这样才可以选出一部好的小说去看。1《何以笙箫默》顾漫(著)一段年轻时候的爱情,牵扯出一辈子的纠缠不清。学…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00
















































注册有好礼



