解读美团在推荐系统的构建和优化过程中的一些做法
2020-12-30 14:07:53 阅读(192) 评论(0)
推荐系统并不是什么新鲜事,很久以前就存在了,但近年来,推荐系统确实进入了人们的视野,作为各种互联网公司存在的重要模块。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不使用某种手段,用户很难从这么多的信息流中找到有价值的信息。解决信息过载的方法有几种:一种是搜索,当用户有明确的信息需求意图时,将意图转换为几个简短的单词或短语组合(即短语),然后将这些单词或短语组合提交给相应的搜索引擎,然后搜索引擎在大量的信息库中检索与短语相关的信息返回给用户;另一种是推荐,用户的意图往往不是很清楚,或者很难用清晰的语义表达,有时甚至用户自己也不知道自己的需求。在这种情况下,搜索似乎很紧张。特别是近年来,随着电子商务的兴起,用户不一定有明确的购买意图浏览,大多数时候是“访问”。在这种情况下,推荐系统是解决信息过载、理解用户意图、向用户推送个性化结果的更好选择。作为中国发展迅速的o2o网站,美团拥有大量的用户和丰富的用户行为,为推荐系统的应用和优化提供了不可或缺的条件。接下来,我们将介绍美团在推荐系统建设和优化过程中的一些做法,并与您分享。作为中国发展迅速的o2o网站,美团拥有大量的用户和丰富的用户行为,为推荐系统的应用和优化提供了不可或缺的条件。接下来,我们将介绍美团在推荐系统建设和优化过程中的一些实践,并与您分享。从框架的角度来看,推荐系统基本上可以分为数据层、触发层、集成过滤层和排序层。数据层包括数据生成和数据存储,主要使用各种数据处理工具清理原始日志,处理成格式化数据,落地到下游算法和模型的不同类型的存储系统中。候选集触发层主要是从用户的历史行为、实时行为、地理位置等角度推荐的候选集。候选人集合和过滤层有两个功能。一是整合出发层产生的不同候选人集,提高推荐策略的覆盖率和准确性;此外,我们还应承担一定的过滤责任,从产品和操作的角度确定一些人工规则,过滤掉不合格的item。排序层主要是利用机器学习模型对触发层筛选出的候选集进行重新排序。同时,对于与候选集触发和重排序的两层,需要频繁修改才能迭代效果,因此需要支持ABtest。为了支持高效的迭代,美团解耦了候选集的触发和重排序。这两层的结果是正交的,所以可以分别进行比较试验,不会相互影响。同时,在每一层内,美团将根据用户将流量划分为多个部分,支持多个策略同时在线比较。数据应用数据是算法和模型的基础。作为一个交易平台,美团拥有快速增长的用户数量,从而产生了大量丰富的用户行为数据。当然,不同类型数据的价值和用户意图的强度也不同。用户主动行为数据记录了用户在美团平台上不同环节的各种行为。一方面,这些行为用于候选集触发算法中的离线计算(主要是浏览和订单)(主要是浏览和订单)。另一方面,这些行为代表了不同的意图。因此,在训练重排序模型时,可以为不同的行为设定不同的回归目标值,从而更详细地描述用户的行为强度。此外,用户对deal的这些行为也可以作为模型离线训练和在线预测的重排序模型的交叉特征。负反馈数据反映了当前结果在某些方面可能无法满足用户的需求。因此,在后续的候选集触发过程中,需要考虑过滤或减少特定因素的功率,减少负因素再次出现的可能性,提高用户体验;同时,在重排序模型培训中,负反馈数据可以作为罕见的负例参与模型培训,比显示后未点击或下单的样本要明显得多。用户肖像是描绘用户属性的基本数据,有些是直接获取的原始数据,有些是挖掘的二次处理数据。一方面,这些属性可以用于在候选集触发过程中加权或减权,另一方面,它们可以作为重排序模型中的用户维度特征。一些关键词可以通过挖掘UGC数据来提取,然后用这些关键词给deal贴上标签,用于deal的个性化显示。战略触发了上述中美团提到的数据的重要性,但数据的立足点仍然是算法和模型。简单的数据只是一些字节的积累。美团必须通过清理数据来去除数据中的噪音,然后通过算法和模型来最大化数据的价值。本节将介绍推荐候选集触发过程中使用的相关算法。##1.当谈到推荐的协同过滤时,必须说协同过滤几乎用于每个推荐系统。基本算法很简单,但要取得更好的效果,往往需要根据具体业务进行一些差异化处理。清除作弊、刷单、采购等噪声数据。这些数据的存在会严重影响算法的效果,所以这些数据应该在数据清洗的第一步中删除。训练数据的合理选择。所选训练数据的时间窗口不宜过长,当然也不宜过短。窗口期的具体值需要通过多次实验来确定。由于最近的用户行为更能反映用户的下一步行为,因此可以考虑引入时间衰减。user-based和item-结合based。尝试不同的相似度计算方法。在实践中,美团采用了一种类似的计算方法,称为loglikelihodratio[1]。在mahout中,loglikelihodratio也被用作一种类似的计算方法。下表显示了Eventa和EventB之间的关系,其中:k11:K12Eventa和EventB共现的次数:EventB发生,EventA未发生的K21:Eventa发生,k222.EventB未发生的次数:不发生Eventa和EventB的次数,loglikelihodratio=2*(matrixEntropy-rowEntropy-columnEntropy)其中,rowentropy=entropy(k11,k12) entropy(k21,k22)columnEntropy=entropy(k11,k21) entropy(k12,k22)matrixEntropy=entropy(k11,k12,k21,k22)(由entropy组成的香农熵)#2.location-对移动设备而言,based,与PC端最大的区别之一是,移动设备的位置经常发生变化。不同的地理位置反映了不同的用户场景,可以充分利用用户在特定业务中的地理位置。不同的地理位置反映了不同的用户场景,可以充分利用用户在特定业务中的地理位置。美团还将根据用户的实时地理位置、工作地点、居住地等地理位置触发相应的策略。根据用户的历史消费、历史浏览等,挖掘一定粒度的区域(如商业区)区域消费热订单和区域购买热订单区域购买热订单当新的在线用户请求到达时,根据用户的几个地理位置加权相应地理位置的区域消费热订单和区域购买热订单,最终得到推荐列表。此外,用户的相似性也可以根据用户的地理位置进行协同过滤。##3.query-based搜索是一种强烈的用户意图,它清楚地反映了用户的意愿,但在许多情况下,由于各种原因,没有形成最终的转换。尽管如此,美团还是认为这种情况代表了一定的用户意愿,可以利用。具体做法如下:挖掘用户过去一段时间的搜索无转换行为,计算每个用户对不同query的权重。计算每个query下不同deal的权重。当用户再次要求时,根据用户对不同query的权重和query下不同deal的权重进行加权,并取出权重最大的topn进行推荐。##4.graph-based对于协同过滤,user或deal之间的图形距离是两个跳跃,不能考虑更远的关系。图算法可以打破这一限制,将user与deal的关系视为二部图,相互关系可以在图上传播。Simrank[2]是衡量对等实体相似度的图算法。它的基本思想是,如果两个实体与其他相似实体有关,它们也是相似的,即相似性可以传播。Lets(A,B)denotethesimilaritybetweenpersonsAandB,forA!=BLets(c,d)denotethesimilaritybetweenitemscandd,forc!=dO(A),O(B):thesetofout-neighborsfornodeAornodeBI(c),I(d):thesetofin-neighborsfornodecornodedsimrank的计算(矩阵迭代)计算出相似度矩阵后,类似于在线推荐的协同过滤。##5.目前,美团的业务将产生丰富的用户行为,包括搜索、筛选、收集、浏览和订单,这是美团效果优化的重要基础。当然,美团希望每一个用户行为流都能达到转化的环节,但事实并非如此。当用户在订单行为的上游产生一些行为时,相当一部分行为流由于各种原因没有形成转换。然而,用户的这些上游行为对美团来说是一个非常重要的先验知识。在许多情况下,当时用户没有转换并不意味着用户对当前item不感兴趣。当用户再次到达美团的推荐展位时,美团将根据用户之前的先验行为,再次向用户展示符合用户意图的相关演示,引导用户沿着行为流向下游,最终实现订单的最终目标。实时用户行为包括实时浏览和实时收集。##6.虽然美团有一系列基于用户历史行为的候选集触发算法,但对于一些新用户或历史行为不丰富的用户来说,上述算法触发的候选集太小,需要填写一些替代策略。热销订单:在一定时间内销量最大的item,可考虑时间衰减的影响等。好评表:在用户产生的评价中,得分较高的item。城市单:满足城市用户要求的基本限制条件。为了结合不同触发算法的优点,提高候选集的多样性和覆盖率,需要将不同的触发算法结合起来。常见的融合方法有以下[3]:加权类型:最简单的集成方法是根据经验值给出不同的算法权重,并根据给定的权重对每个算法生成的候选集进行加权,然后根据权重进行排序。分级类型:优先考虑效果好的算法,当候选集的大小不足以满足目标值时,再使用效果次好的算法,以此类推。调制类型:不同的算法根据不同的比例产生一定数量的候选集,然后叠加产生最终的总候选集。过滤类型:当前算法过滤前一级算法产生的候选集,以此类推,候选集被逐级过滤,最终产生小而精的候选集。目前,美团采用的方法集成了两种集成方法:调制和分级。不同的算法根据历史效果给出不同候选集的比例。同时,优先考虑效果好的算法。如果候选集不够大,则使用效果第二的算法进行触发,以此类推。如上所述,对于不同算法触发的候选集,根据算法的历史效果确定算法产生的item的位置有点简单和粗糙。同时,在每个算法的内部,不同item的顺序只是由一个或几个因素决定的,这些排序方法只能用于初步选择过程的第一步,最终的排序结果需要使用相关的排序模型,综合各种因素来确定。##1.模型非线性模型可以更好地捕捉特征中的非线性关系,但训练和预测的成本高于线性模型,这也导致非线性模型的更新周期相对较长。##1.模型非线性模型可以更好地捕捉特征中的非线性关系,但训练和预测的成本高于线性模型,这也导致非线性模型的更新周期相对较长。相反,线性模型对特征的处理要求相对较高,需要依靠领域知识和经验手动处理特征,但由于线性模型简单,在训练和预测中效率较高。因此,在更新周期中也可以做得更短,也可以结合业务进行一些在线学习尝试。在美团的实践中,非线性模型和线性模型都有应用。目前,美团主要采用非线性树模型AddditiveGroves[4](AG)。与线性模型相比,非线性模型可以更好地处理特征中的非线性关系,不需要像线性模型那样在特征处理和特征组合上花费大量精力。AG是一个由多个Grove组成的加性模型,在不同的Grove之间进行bagging以获得最终的预测结果,从而减少过拟合的影响。每棵Grove都由多棵树组成,每棵树的拟合目标是实际值与其它树预测结果之和之间的残差。当达到给定数量的树木时,重新训练的树木将逐一取代以前的树木。经过多次迭代,达到了收敛。目前应用广泛的线性模型是Logisticregresion。为了实时捕捉数据分布的变化,美团引入onlinelearning,访问实时数据流,使用google提出的FTRL[5]方法在线更新模型。主要步骤如下:在线写作特征向量到HBasestorm分析实时点击和订单日志流,通过FTRL更新模型权重将新模型参数应用于在线##2。数据采样:对于点击率估计,正负样本严重不平衡,因此需要
推荐阅读
- 专利转让证明有哪些 专利转让证明方式
科技在发展,许多人在发挥自己的奇思妙想之后进行了独立产品的创造。为了保护知识产权而去申请专利,但是也有专利转让的情况,下面小编就给大家来详细介绍一下专利转让证明有哪些 专利转让证明方式这一块的相关内容,希望能帮助到大家,。 专利转…查看详情
- 练歌软件哪个好 十大手机练歌软件排行榜
现在市面上的K歌练歌软件是非常的多,每个练歌软件都有不同的功能,下面万商云集小编给大家来介绍下练歌软件哪个好 十大手机练歌软件排行榜这方面的内容。 1.全民k歌 全民K歌来自腾讯旗下的一款一款K歌软件,即使五音不全网友们也能用全民k歌A…查看详情
- 电子票务系统该如何选择(无纸化电子票系统)
电子票务俗称无纸化电子票,是在电子应用技术当中一次重大的科技创新,针对于不同的行业做出不同功能的电子票务系统,就好像我们现在坐车用的二维码,或者类似等等的类似行业,那今天我们就来盘点一下电子票务系统都有哪些。1、亿通行这是一款地铁出行软件,…查看详情
- 口碑饿了么推出有别于网红“带货直播”的“手艺直播”
双十一大促离我们越来越近了,阿里旗下的各大平台对于双十一的筹备也都进入了最后阶段,其中有一个亮点就是阿里专供本地市场的平台阿里本地生活推出了在不一样的直播,跟当下热门的网红“带货直播”有着很大区别的“手艺直播”,虽然都是直播,但是播放的人和…查看详情
- 未受信任的企业级开发者怎么解决(附上详细解决办法)
如果在打开软件时弹出“未受信任的企业级开发者”提示,说明该软件由“企业”开发者创建,一般来说这类软件是由某个企业开发并只供内部使用,且无法上架到 AppStore。Apple开发者分为个人、公司、企业三类,个人和公司开发者可以将自己开…查看详情
- 六款好用的固定资产管理软件免费版
随着社会的发展以及社会的进步,人们对于公司的固定资产的疑问也越来越多,为了解答大家的疑惑,我总结了六款好用的固定资产管理软件免费版。 1.金蝶固定资产管理系统 作为国内知名的财务软件厂商,金蝶也有涉猎固定资产管理软件。在系统内,用户可以一键…查看详情
- [关于商标的注册和购买] 没有最佳选项,只有最适合的选择!
企业获得商标有两种方式,一种是商标注册申请,另一种就是商标购买转让。对于大多数中小企业来说,常见的流程是先注册公司,然后根据公司业务情况设计商标进行申请注册,有小部分公司是直接创建公司,然后直接购买商标。关于商标的注册和购买,没有最佳选项,…查看详情
- 餐饮收银系统排行哪些比较靠前?这几款值得选择
现在的餐饮行业是比较热门的,可以说在我国这个行业的发展速度比较快。除了餐饮行业飞速发展之外,互联网行业也发展的非常快,所以说很多的餐饮也都走向了网络的时代,比如说在收银的时候都会选择非常好用的餐饮收银系统。因为现在很多的顾客出门…查看详情
- 可以查看监控系统图的6款监控软件
随着科学技术的不断发展,AI智能人脸、肢体识别技术也越来越成熟,监控系统也运用到了这些技术。下面是我给大家整理的可以查看监控系统图的6款监控软件,有需要的朋友可以看一看。 1.智能监控 它是一款主要用于家庭、工地、办公室等…查看详情
- 不了解互联网的人如何制作自己的网站
网络搜索已成为人们满足生活、工作所需的必然工具,为了让人们搜索到您,承载企业内容的网站就必不可少。可是对于不了解互联网的实体企业而言,该如何制作自己的网站是一大难题。关于网站建设、网站制作,小万有着独特的经验。今天我们就一起来看看不了解互联…查看详情
- win10如何重装网卡
在win10系统中,网卡驱动是一个非常重要的组成部分,它决定了计算机能否正常联网,所以如果网卡驱动损坏或出现问题,就必须重新安装网卡驱动。以下是重装网卡的详细步骤: 1.打开设备管理器 打开win10系统的“设备管理器”,有多种方式…查看详情
- CRM客户关系管理软件有哪些 CRM客户关系管理软件排名
每个公司的客户都有好几百个,而每个客户所对应的项目又不一样,那么,怎么做到每个客户都维护到位,把对应的项目做好呢,就需要借助到CRM客户关系管理软件了,用软件可以把每个客户对应的项目标注好。 1、综合性管理系统提供商CRM …查看详情
- 怎么样推广自己的网站 这些方法效果很好!
在这个大家为自己背书的时代,越来越多的个人也开始利用网站来推广自己。当然,要想取得比较好的宣传推广效果,那么你还是需要一些技巧的:下面小编就给大家来详细介绍一下怎么样推广自己的网站这一块内容,希望能帮助到大家做好网站推广。怎么样推广自己…查看详情
- 免费好用的营销软件有哪些 营销软件排行榜
现在企业做营销都会涉及到营销软件这一块,市面上也是有很多的营销软件的,下面小编就给大家来详细介绍一下免费好用的营销软件有哪些 营销软件排行榜这一块的内容,希望能帮助到大家。营销软件排行榜 1.腾讯企点 腾讯企点,腾讯云旗下智慧客户…查看详情
- 免费视频剪辑软件有哪些 免费视频剪辑软件排行榜
最近经常看到有朋友说想做短视频、但又不会剪辑,希望小编安利一下?哎,那我这不就来了吗?这一个星期内,小媒测评了17款手机剪辑软件,最终给大家挑选出了5个简单好上手、功能也比较全面的,大家收好~下面小编就给大家来详细介绍一下免费视频剪辑软…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






