解读美团在推荐系统的构建和优化过程中的一些做法
2020-12-30 14:07:53 阅读(209) 评论(0)
推荐系统并不是什么新鲜事,很久以前就存在了,但近年来,推荐系统确实进入了人们的视野,作为各种互联网公司存在的重要模块。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不使用某种手段,用户很难从这么多的信息流中找到有价值的信息。解决信息过载的方法有几种:一种是搜索,当用户有明确的信息需求意图时,将意图转换为几个简短的单词或短语组合(即短语),然后将这些单词或短语组合提交给相应的搜索引擎,然后搜索引擎在大量的信息库中检索与短语相关的信息返回给用户;另一种是推荐,用户的意图往往不是很清楚,或者很难用清晰的语义表达,有时甚至用户自己也不知道自己的需求。在这种情况下,搜索似乎很紧张。特别是近年来,随着电子商务的兴起,用户不一定有明确的购买意图浏览,大多数时候是“访问”。在这种情况下,推荐系统是解决信息过载、理解用户意图、向用户推送个性化结果的更好选择。作为中国发展迅速的o2o网站,美团拥有大量的用户和丰富的用户行为,为推荐系统的应用和优化提供了不可或缺的条件。接下来,我们将介绍美团在推荐系统建设和优化过程中的一些做法,并与您分享。作为中国发展迅速的o2o网站,美团拥有大量的用户和丰富的用户行为,为推荐系统的应用和优化提供了不可或缺的条件。接下来,我们将介绍美团在推荐系统建设和优化过程中的一些实践,并与您分享。从框架的角度来看,推荐系统基本上可以分为数据层、触发层、集成过滤层和排序层。数据层包括数据生成和数据存储,主要使用各种数据处理工具清理原始日志,处理成格式化数据,落地到下游算法和模型的不同类型的存储系统中。候选集触发层主要是从用户的历史行为、实时行为、地理位置等角度推荐的候选集。候选人集合和过滤层有两个功能。一是整合出发层产生的不同候选人集,提高推荐策略的覆盖率和准确性;此外,我们还应承担一定的过滤责任,从产品和操作的角度确定一些人工规则,过滤掉不合格的item。排序层主要是利用机器学习模型对触发层筛选出的候选集进行重新排序。同时,对于与候选集触发和重排序的两层,需要频繁修改才能迭代效果,因此需要支持ABtest。为了支持高效的迭代,美团解耦了候选集的触发和重排序。这两层的结果是正交的,所以可以分别进行比较试验,不会相互影响。同时,在每一层内,美团将根据用户将流量划分为多个部分,支持多个策略同时*比较。数据应用数据是算法和模型的基础。作为一个交易平台,美团拥有快速增长的用户数量,从而产生了大量丰富的用户行为数据。当然,不同类型数据的价值和用户意图的强度也不同。用户主动行为数据记录了用户在美团平台上不同环节的各种行为。一方面,这些行为用于候选集触发算法中的离线计算(主要是浏览和订单)(主要是浏览和订单)。另一方面,这些行为代表了不同的意图。因此,在训练重排序模型时,可以为不同的行为设定不同的回归目标值,从而更详细地描述用户的行为强度。此外,用户对deal的这些行为也可以作为模型离线训练和*预测的重排序模型的交叉特征。负反馈数据反映了当前结果在某些方面可能无法满足用户的需求。因此,在后续的候选集触发过程中,需要考虑过滤或减少特定因素的功率,减少负因素再次出现的可能性,提高用户体验;同时,在重排序模型培训中,负反馈数据可以作为罕见的负例参与模型培训,比显示后未点击或下单的样本要明显得多。用户肖像是描绘用户属性的基本数据,有些是直接获取的原始数据,有些是挖掘的二次处理数据。一方面,这些属性可以用于在候选集触发过程中加权或减权,另一方面,它们可以作为重排序模型中的用户维度特征。一些关键词可以通过挖掘UGC数据来提取,然后用这些关键词给deal贴上标签,用于deal的个性化显示。战略触发了上述中美团提到的数据的重要性,但数据的立足点仍然是算法和模型。简单的数据只是一些字节的积累。美团必须通过清理数据来去除数据中的噪音,然后通过算法和模型来最大化数据的价值。本节将介绍推荐候选集触发过程中使用的相关算法。##1.当谈到推荐的协同过滤时,必须说协同过滤几乎用于每个推荐系统。基本算法很简单,但要取得更好的效果,往往需要根据具体业务进行一些差异化处理。清除作弊、刷单、采购等噪声数据。这些数据的存在会严重影响算法的效果,所以这些数据应该在数据清洗的第一步中删除。训练数据的合理选择。所选训练数据的时间窗口不宜过长,当然也不宜过短。窗口期的具体值需要通过多次实验来确定。由于最近的用户行为更能反映用户的下一步行为,因此可以考虑引入时间衰减。user-based和item-结合based。尝试不同的相似度计算方法。在实践中,美团采用了一种类似的计算方法,称为loglikelihodratio[1]。在mahout中,loglikelihodratio也被用作一种类似的计算方法。下表显示了Eventa和EventB之间的关系,其中:k11:K12Eventa和EventB共现的次数:EventB发生,EventA未发生的K21:Eventa发生,k222.EventB未发生的次数:不发生Eventa和EventB的次数,loglikelihodratio=2*(matrixEntropy-rowEntropy-columnEntropy)其中,rowentropy=entropy(k11,k12) entropy(k21,k22)columnEntropy=entropy(k11,k21) entropy(k12,k22)matrixEntropy=entropy(k11,k12,k21,k22)(由entropy组成的香农熵)#2.location-对移动设备而言,based,与PC端最大的区别之一是,移动设备的位置经常发生变化。不同的地理位置反映了不同的用户场景,可以充分利用用户在特定业务中的地理位置。不同的地理位置反映了不同的用户场景,可以充分利用用户在特定业务中的地理位置。美团还将根据用户的实时地理位置、工作地点、居住地等地理位置触发相应的策略。根据用户的历史消费、历史浏览等,挖掘一定粒度的区域(如商业区)区域消费热订单和区域购买热订单区域购买热订单当新的*用户请求到达时,根据用户的几个地理位置加权相应地理位置的区域消费热订单和区域购买热订单,最终得到推荐列表。此外,用户的相似性也可以根据用户的地理位置进行协同过滤。##3.query-based搜索是一种强烈的用户意图,它清楚地反映了用户的意愿,但在许多情况下,由于各种原因,没有形成最终的转换。尽管如此,美团还是认为这种情况代表了一定的用户意愿,可以利用。具体做法如下:挖掘用户过去一段时间的搜索无转换行为,计算每个用户对不同query的权重。计算每个query下不同deal的权重。当用户再次要求时,根据用户对不同query的权重和query下不同deal的权重进行加权,并取出权重最大的topn进行推荐。##4.graph-based对于协同过滤,user或deal之间的图形距离是两个跳跃,不能考虑更远的关系。图算法可以打破这一限制,将user与deal的关系视为二部图,相互关系可以在图上传播。Simrank[2]是衡量对等实体相似度的图算法。它的基本思想是,如果两个实体与其他相似实体有关,它们也是相似的,即相似性可以传播。Lets(A,B)denotethesimilaritybetweenpersonsAandB,forA!=BLets(c,d)denotethesimilaritybetweenitemscandd,forc!=dO(A),O(B):thesetofout-neighborsfornodeAornodeBI(c),I(d):thesetofin-neighborsfornodecornodedsimrank的计算(矩阵迭代)计算出相似度矩阵后,类似于*推荐的协同过滤。##5.目前,美团的业务将产生丰富的用户行为,包括搜索、筛选、收集、浏览和订单,这是美团效果优化的重要基础。当然,美团希望每一个用户行为流都能达到转化的环节,但事实并非如此。当用户在订单行为的上游产生一些行为时,相当一部分行为流由于各种原因没有形成转换。然而,用户的这些上游行为对美团来说是一个非常重要的先验知识。在许多情况下,当时用户没有转换并不意味着用户对当前item不感兴趣。当用户再次到达美团的推荐展位时,美团将根据用户之前的先验行为,再次向用户展示符合用户意图的相关演示,引导用户沿着行为流向下游,最终实现订单的最终目标。实时用户行为包括实时浏览和实时收集。##6.虽然美团有一系列基于用户历史行为的候选集触发算法,但对于一些新用户或历史行为不丰富的用户来说,上述算法触发的候选集太小,需要填写一些替代策略。热销订单:在一定时间内销量最大的item,可考虑时间衰减的影响等。好评表:在用户产生的评价中,得分较高的item。城市单:满足城市用户要求的基本限制条件。为了结合不同触发算法的优点,提高候选集的多样性和覆盖率,需要将不同的触发算法结合起来。常见的融合方法有以下[3]:加权类型:最简单的集成方法是根据经验值给出不同的算法权重,并根据给定的权重对每个算法生成的候选集进行加权,然后根据权重进行排序。分级类型:优先考虑效果好的算法,当候选集的大小不足以满足目标值时,再使用效果次好的算法,以此类推。调制类型:不同的算法根据不同的比例产生一定数量的候选集,然后叠加产生最终的总候选集。过滤类型:当前算法过滤前一级算法产生的候选集,以此类推,候选集被逐级过滤,最终产生小而精的候选集。目前,美团采用的方法集成了两种集成方法:调制和分级。不同的算法根据历史效果给出不同候选集的比例。同时,优先考虑效果好的算法。如果候选集不够大,则使用效果第二的算法进行触发,以此类推。如上所述,对于不同算法触发的候选集,根据算法的历史效果确定算法产生的item的位置有点简单和粗糙。同时,在每个算法的内部,不同item的顺序只是由一个或几个因素决定的,这些排序方法只能用于初步选择过程的第一步,最终的排序结果需要使用相关的排序模型,综合各种因素来确定。##1.模型非线性模型可以更好地捕捉特征中的非线性关系,但训练和预测的成本高于线性模型,这也导致非线性模型的更新周期相对较长。##1.模型非线性模型可以更好地捕捉特征中的非线性关系,但训练和预测的成本高于线性模型,这也导致非线性模型的更新周期相对较长。相反,线性模型对特征的处理要求相对较高,需要依靠领域知识和经验手动处理特征,但由于线性模型简单,在训练和预测中效率较高。因此,在更新周期中也可以做得更短,也可以结合业务进行一些*学习尝试。在美团的实践中,非线性模型和线性模型都有应用。目前,美团主要采用非线性树模型AddditiveGroves[4](AG)。与线性模型相比,非线性模型可以更好地处理特征中的非线性关系,不需要像线性模型那样在特征处理和特征组合上花费大量精力。AG是一个由多个Grove组成的加性模型,在不同的Grove之间进行bagging以获得最终的预测结果,从而减少过拟合的影响。每棵Grove都由多棵树组成,每棵树的拟合目标是实际值与其它树预测结果之和之间的残差。当达到给定数量的树木时,重新训练的树木将逐一取代以前的树木。经过多次迭代,达到了收敛。目前应用广泛的线性模型是Logisticregresion。为了实时捕捉数据分布的变化,美团引入onlinelearning,访问实时数据流,使用google提出的FTRL[5]方法*更新模型。主要步骤如下:*写作特征向量到HBasestorm分析实时点击和订单日志流,通过FTRL更新模型权重将新模型参数应用于*##2。数据采样:对于点击率估计,正负样本严重不平衡,因此需要
推荐阅读
- 2021年10款热门 bi商业智能软件排名
针对商业智能BI工具选型,其实最主要的还是功能、性能、价格、体验、安全,排名等方面为核心考量指标,本文总结的这份2021年10款热门bi商业智能软件排名,保障企业更好的进行BI产品选型。 一、tableau bi商业智能软件 自助式BI典型…查看详情
- 地址查询软件有哪些 地址查询软件排行榜
现在很多的时候大家都会查询一些地址,其实现在导航app软件都是能查到的了,下面*就给大家来详细介绍一下地址查询软件有哪些 地址查询软件排行榜这一块的相关内容,希望能帮助到大家。 地址查询软件排行榜 1、《北斗导航地图》 通过卫…查看详情
- ai智能阅读软件-ai读稿有哪些app
在快时代的节奏中,随着AI智能不停地发展,给我们普通人的生活带来的便利越来越多,举个例子,比如说我们的智能语音,甚至有的地方已经开始使用了人工机器人智能的产品,那么今天我们就来盘点一下AI智能阅读软件的魅力。1、ai智能阅读这是一款非常强大…查看详情
- 如何给作品申请版权 作品申请版权方法
现在整个市场都比较注重作品创作的版权,而且现在作品的版权是非常的重要的,下面万商云集*给大家来详细介绍一下如何给作品申请版权 作品申请版权方法这一块的内容。希望能帮助到大家。 如何给作品申请版权 1、提交申请版权登记的作品:向国…查看详情
- 揭秘ERP软件十大选型误区
随着越来越多的实体企业引入ERP软件对生产销售环节进行信息化管理,ERP软件市场也愈发热闹。但热闹的背后,不是所有ERP软件都能成功应用起来,大多数实体企业在第一步选型时就步入了误区。据小万了解,企业选型ERP软件主要存在十大误区。1、需求…查看详情
- 6款跑步软件测评,*健身一定要看
跑步作为一种最简单有效的有氧运动一直作为运动最受欢迎的项目被大家所接受,因此针对跑步相关需求的软件也应运而生,今天我们就找来目前市场上受欢迎的6款跑步软件测评。 1.咕咚 咕咚是最适合新人使用的一款跑步app,总里程,每次距离,配速,步频以…查看详情
- 朝鲜语输入法有哪些?推荐几款比较好用的朝鲜语输入法
朝鲜语输入法大多和韩语输入法一样,以韩语或者朝鲜语为交流语言的人大多都会使用。如果你也想知道朝鲜语输入法有哪些的话,来看看我给大家推荐的比较好用的朝鲜语输入法吧。 1.朝鲜语输入法软件分为手机和电脑版: 手机版输入法可以下载…查看详情
- 商标注册前如何预防侵权
现在商标或者产权这个行业侵权是很严重的,很多人都不知道商标注册前如何预防侵权,下面万商云集*就给大家来详细介绍下具体方法。, 一、商标注册前如何预防侵权 商标注册前,特别是设计和互相传递过程中,也可以采取预防商标设计抢先注册侵权措施,.…查看详情
- 好看的都市完结小说有哪些 2022都市完结小说排名
其实都市小说很多的小伙伴都喜欢看,这类型的小说比较休闲,下面万商云集*给大家来详细介绍一下好看的都市完结小说有哪些 2022都市完结小说排名,不知道下面这些小说大家看过没有。 《市井之辈》 很不错的创意,带点诙谐搞笑,和生活很贴近。是个…查看详情
- 2021最新建筑设计平台大盘点
当今社会有很多的建筑师对于自己的设计灵感都有渠道来源,他们都是依靠一些建筑设计平台来的,那么今天*带大家了解一下2021最新建筑设计平台大盘点,希望我的文章能够帮到大家。 1.bbs建筑设计平台 现在网络上有很多的论坛和行业交流平台,其中论…查看详情
- 专利权宣告无效情形 什么情况下专利权宣告无效
在平时很多的小伙伴都不知道专利权宣告无效情形的基本情况,而且对专利权宣告无效情形都不是很熟悉,下面万商云集*就为大家整理了专利权宣告无效情形这方面的相关内容,希望下面的内容能帮助到各位。 一、专利权宣告无效情形 专利权无效是经第三…查看详情
- CRM选型,你不得不考虑这些问题
使用CRM软件管理客户、经营客户正当时,无论是CRM厂商还是使用CRM的企业都如雨后春笋般多了起来。但不是所有使用企业都能匹配到适合的厂商的CRM软件,CRM选型就成为了新的*点。CRM选型是企业能否顺利推行CRM软件的基础,因此,为了方便…查看详情
- 开办个体诊所的条件
2021年对个体诊所有什么新规? 开个体诊所的条件: 诊所是为患者提供门诊诊断和治疗的医疗机构,不设住院病床(产床),只提供易于诊断的常见病和多发病的诊疗服务。 一、人员 (一)至少有1名取得执业医师资格,经注册后在医疗、保健机…查看详情
- 火锅店用什么收银系统比较好,7款产品爆灯推荐
餐饮行业的普遍痛点:运营管理能力不足,员工成本高,特别是对于火锅店来说,这时候就需要一个集自主点餐,收银,排队,接外卖,开发票等功能为一体的收银系统来帮忙分担了。 针对火锅店用什么收银系统比较好,小万归纳整理了以下7种市场较好口碑的第三方收…查看详情
- 建网站找哪个公司,专业的建站公司推荐
网站建设比较重要,做好了网站建设之后,能够让企业发展得更好,而且还能够实现网络营销。在进行网站建设的时候,很多的企业都有着自己的见证团队,但是大部分的企业会找到比较好的网站建设公司来进行网站搭建。好的网站公司有着专业的技术人才,带来的网站建…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
邮箱:zjb@iwanshang.com
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的AI增效平台

400-0033-166
8:30-18:00















































注册有好礼



