服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

深入剖析美团将大数据排序进行优化的架构

2020-12-30 14:04:06 阅读(352 评论(0)

随着业务的发展,美团的商家和团购数量正在迅速增长。在此背景下,搜索排名的重要性更加突出:排名优化可以帮助用户更方便地找到满足其需求的企业和团体购买,改善用户体验,提高转化效果。与传统的网页搜索问题相比,美团的搜索排名有自己的特点——90%的交易发生在移动终端。一方面,这对排名的个性化提出了更高的要求。例如,在“火锅”查询下,北京五道口火锅店A对五道口用户U1是一个很好的结果,对望京用户U2不一定是一个很好的结果;另一方面,我们积累了丰富准确的客户行为,分析了用户的地理位置、类别和价格偏好,然后指导个性化排名。根据美团O2O业务的特点,我们实现了一套搜索排名技术方案,比规则排名提高了几十%。基于这个方案,我们抽象了一套通用的O2O排序解决方案,只需1-2天就可以快速部署到其他产品和子行业。目前,在热门词汇中,Suggestion、酒店、KTV等产品及子行业的应用。我们将分别介绍这个通用的O2O排名解决方案,根据在线和离线部分。本文是在线文章,主要介绍在线服务框架、特征加载、在线估计等模块。下一篇文章将重点介绍离线过程。为了快速有效地迭代搜索算法,排序系统设计支持灵活的A/B测试,以满足准确效果跟踪的需要。如上图所示,美团搜索排序系统主要包括离线数据处理、在线服务和在线数据处理三个模块。搜索显示、点击、下单、支付等日志存储在离线数据处理HDFS/Hive上。离线数据流程每天调度多个Mapreduce任务分析日志,相关任务包括:离线特征挖掘输出Deal(团购订单)//POI(商家)、排序模型使用了用户和Query等维度的特征。数据清洗标记&清洁模型训练数据,清除爬虫、作弊等引入的脏数据;标记清洁数据后,用作模型训练。算法效果指标生成统计生成效果报表,指导排序改进。作为排序模型的输入,特征监控特征是排序系统的基础。特征的异常变化会直接影响排序的效果。特征监控主要监控特征覆盖率和价值分布,帮助我们及时发现相关问题。对应于在线数据处理和离线流程,在线流程通过Storm/SparkStreaming等工具分析处理实时日志流,输出实时特征、实时报表和监控数据,更新在线排序模型。在线服务(RankService)接到搜索请求后,RankService将调用召回服务获取候选POI/Deal集合,并根据A/B测试配置为用户分配排序策略/模型,应用策略/模型对候选集合进行排序。下图是RankService内部的排序流程。L1粗粒度排序(快速)使用较少的特征、简单的模型或规则对候选集进行粗粒度排序。L2细粒度排序(慢)对L1排序结果的前N个进行细粒度排序。这一层将从特征库加载特征(Featureloader),应用模型(A/B测试配置分配)排序。在L2排序的基础上,L3业务规则干预应用业务规则/人工干预适当调整排序。RankService将显示日志记录在日志收集系统中进行在线/离线处理。A在RankServer端完成/B测试A/B测试的流量切分。我们根据UUID(用户标识)将流量分为多个桶(Bucket),每个桶对应一种排序策略,桶内流量将采用相应的策略进行排序。为了保证用户体验的一致性,使用UUID进行流量切分。以下是A/B测试配置的简单示例。复制代码代码如下:{  "search":{    "NumberOfBuckets":100,    "DefaultStrategy":"Base",    "Segments":[      {        "BeginBucket":0,        "EndBucket":24,        "WhiteList":[123],        "Strategy":"Algo-1"      },      {        "BeginBucket":25,        "EndBucket":49,        "WhiteList":[],        "Strategy":"Algo-2"      }    ]  }}非法UUID,每个请求将随机分配一个桶,以确保效果比较不受影响。白名单(WhiteList)该机制可以确保用户使用给定的策略来协助相关测试。白名单(WhiteList)该机制可以确保用户使用给定的策略来辅助相关测试。除了A/B测试,我们还使用Interleaving[7]来比较两种排序算法。与A/B测试相比,Interleaving方法对排序算法更敏感,可以通过更少的样本来比较两种排序算法之间的优缺点。使用小流量的Interleaving方法,帮助我们快速淘汰差算法,提高策略迭代效率。特征加载搜索排序服务涉及多种特征,特征获取和计算是RankService响应速度的瓶颈。我们设计了Featureloader模块,并行获取和计算特征,有效地减少了特征加载时间。在实际业务中,并行特性加载的平均响应时间比串行特性加载快20毫秒左右。在Featureloader的实现中,我们使用了Akka[8]。如上图所示,特征获取和计算被抽象并包装为多个Akkaactor,由Akka并行调度和执行。自2013年9月以来,模型美团在搜索排名中应用了机器学习方法(LearningtoRank),并且获得了很大的利润。这得益于准确的数据标记:用户点击订单支付等行为可以有效地反映他们的偏好。通过特征挖掘和模型优化,我们不断优化搜索排名。以下将介绍我们在特征使用、数据标记、排序算法、PositionBias处理和冷启动问题缓解等方面的工作。特征从美团业务出发,特征选择以用户为主,Query、Deal/POI和搜索上下文四个维度。用户维度包括类别偏好、消费水平和地理位置。Query维度包括Query长度、历史点击率、转化率和类型(商业词/类别词/地标词)等。Deal/POI维度包括Deal/POI销售、价格、评估、折扣率、类别和历史转化率。上下文维度包括时间、搜索入口等。此外,一些特征来自于几个维度之间的关系:用户点击和订购Deal/POI,以及用户与POI之间的距离是决定排名的重要因素;Query和Deal/POI的文本相关性和语义相关性是模型的关键特征。在模型Learningtorank应用中,我们主要采用Pointwise方法。用户点击、下单、付款等行为标注样本。从统计数据来看,点击、订单和支付分别对应于样本对用户需求的不同匹配程度,因此相应的样本将被视为样本,并给予不断增加的权重。各种不同类型的模型在线运行,主要包括:Gradientboostingdecision/regressiontree(GBDT/GBRT)GBDT是LTR中应用广泛的非线性模型。我们开发了基于Spark的GBDT工具,在树拟合梯度时采用并行方法缩短训练时间。GBDT的树被设计成三叉树,作为一种处理缺乏特征的方法。bostingtreee方法可以通过选择不同的损失函数来处理回归问题和分类问题。在应用中,我们选择了更好的logisticlikelihodloss,将问题建模为二分类问题。LogisticRegression(LR)参考Facebookpaper[3],我们利用GBDT构建一些LR特征。在线训练LR模型采用FTRL算法。对模型的评估分为离线和在线两部分。在离线部分,我们通过AUC(AreaUndertheROCCurve)和MAP(MeanAveragePrecision)通过A/B测试在线评估模型来测试模型的实际效果,这两种方法支持算法的不断迭代优化。在我们的搜索排名系统中,冷启动的问题是,当新企业、新团购订单输入或新用户使用美团时,我们没有足够的数据来猜测用户对产品的偏好。冷启动是商家的主要问题,我们通过两种方式来缓解。一方面,在模型中引入了文本相关性、类别相似性、距离和类别属性,以确保在没有足够显示和反馈的情况下更准确地预测;另一方面,我们引入了Explore&Exploit机制为新商家和团单提供适度的曝光机会,收集反馈数据,改进预测。PositionBias在手机上,搜索结果的显示形式是列表页面,结果的显示位置会对用户的行为产生很大的影响。在特征挖掘和训练数据标记中,我们考虑了显示位置因素引入的偏差。例如CTR(click-through-rate)根据ExaminationModel的统计,我们消除了显示位置的影响。在线总结主要介绍了美团搜索排序系统在线部分的结构、算法和主要模块。在后续的文章中,我们将重点介绍排序系统的离线部分。完善的线上线下系统是排序优化可持续进行的基础。不断挖掘基于业务的数据和模型是不断改进排名的动力。我们还在探索。2、针对美团90%交易发生在移动终端的业务特点,我们实现了一套适合O2O业务的搜索排序技术方案,已应用于许多产品和子行业。在之前的在线文章中,我们介绍了服务框架、排序算法等。本文为线下文章,主要讲述数据清洗、特征矩阵、监控系统、模型训练和效果评估等模块。数据清洗数据清洗的主要工作是为离线模型培训准备标记数据,同时清洗非法数据。数据清洗的数据源主要包括团购曝光、点击和订单。整个数据清洗过程如下:从Hive表中读取序列曝光、点击和订单数据,采用schema处理方法,可根据日志字段名直接提取相应字段,不受日志字段增减的影响。曝光日志存储用户行为的详细信息,包括城市、地理位置、筛选条件和一些行为特征;点击日志主要记录用户点击的POID、点击时间;下单日志记录用户下单的POID、下单时间和金额。数据清洗模块根据配置文件从数据源中提取所需的字段,并进行序列化(Serialization)然后存储在HDFS上。在序列化过程中,如果日志字段非法或单个用户曝光、点击或订购超过设定阈值,则将清理相关日志,以避免数据对模型培训的影响。数据序列化后,在HDFS上保存三份文本文件(Impression)、点击(Click)和下单(Order)。根据globalid(一次搜索的唯一标记,类似于sessionid)和相应的团购id,数据标记模块将曝光、点击和订单联系起来,最终生成一个标记数据,标记是否被点击、下单和支付。同时,这个标注数据携带同时携带

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

苹果助手叫什么名字

iphone有语音助手软件?1.苹果手机的语音助手叫Siri,以iPhone手机系统版本13.5为例在设置中找到S... 2.点击Sir与搜索,进入Sir与搜索进行多种操作设置; 3.点击语言可以选择各国的语言; 4.点击Siri声音…查看详情

英语学习软件推荐,这几款超级棒

作为世界通用的语言,学好英语不仅是有必要的,也是非常重要的,尤其是在职场中,如果能够掌握流利的英语,的确对于自己是非常有利的,而想要学好英语,选择英语学习的软件使用更加简单方便,那么下面就为大家推荐几款好用的。 1、羊驼英…查看详情

如何在商标注册通过率只有50%的情况下成功通过注册

不管在什么时候,商标注册通过率都不可能是百分百,据商标局官方发布的数据,我国被驳回的商标占申请总数的约50%。若想提高商标注册通过率,可以从5个方面做改进工作。 图片来源于网络 商标注册不通过的原因有三点:①商标相似;②商标相同;③商标被异…查看详情

如何注册商标及费用:官费三百元,但为什么每人花费却有高有低

注册商标,对企业有巨大经济价值。它能成为企业无形资产、提升企业市场竞争力、帮助企业获得收益,所以现今商标注册的需求越来越多。如何注册商标及费用明细?下面小万来讲解。 图片来源于网络 如何注册商标及费用明细:1. 商标检索到国家工商总局的网站…查看详情

会计常用财务软件有哪些 会计常用财务软件排行榜

  现在不管是公司的账务还是家庭个人的财务都是需要记账的,现在市面上也有很多的记账软件,下面小编就给大家来详细介绍一下会计常用财务软件有哪些 会计常用财务软件排行榜这一块的相关内容,希望能帮助到大家。  会计常用财务软件排行榜  1、《…查看详情

什么软件能把视频背景替换掉?我来为你解惑

随着物质生活水平的不断提高,人们对精神文化的需求越来越强烈,文化产业蓬勃发展。短视频软件层出不穷,随时随地都能在各种社交平台上看到剪辑精美的视频画面。那什么软件能把视频背景替换掉?我来为你解惑。1.剪映剪映app是抖音官方推出的一款手机视频…查看详情

集团crm系统的刚需功能和拓展性功是什么?

集团crm系统是在基础的crm系统上延伸出来的扩展版,根据集团企业的管理难点和企业特点进行了相应的功能开发,能够满足企业的多位一体、多区域、多渠道、多维度的管理体系。集团crm系统是大型企业、跨国企业的优质选择。图片来源于网络目前国内的CR…查看详情

适合律师使用的iPhone录音软件

作为一名律师来说,给别人打官司首先要有足够的证据,这样才可以保证在开庭的时候有信心能赢过对方,那么,收集证据最基本的方法就是通过录音的形式,关于iPhone录音软件有哪些?1、录音宝录音宝是一款带来高品质音频、音频转文字贴心服务的手机录音软…查看详情

淘宝服务商是什么意思?

  优质答案(1)  就是大家在淘宝申请开启属于自己的网店时,官方是会对大家进行一个身份审核的,以确保店铺在之后的运营过程中如果出现了什么问题,平台可以迅速找到正确的负责人。所以在这里需要用户提交身份资料信息给淘宝官方进行认证。  希望以上…查看详情

好看的都市言情小说有哪些 好看的都市言情小说完本推荐

  现在很多的书友特别喜欢看都市言情小说,很多的人对此比较痴迷,下面万商云集小编给大家来详细介绍一下好看的都市言情小说有哪些 好看的都市言情小说完本推荐,不知道下面推荐的这些小说有喜欢的没有。  第一本:《离婚365次》作者:两颗心的百草堂…查看详情

网站用商标注册吗?取决于网站的商用价值和发展规划

市场上的商标分为注册商标和未注册商标。注册商标是指品牌或品牌的一部分在政府有关部门依法注册,注册者拥有专用权,受到国家商标法保护的商标;未注册商标是没有依法完成注册,但在市场使用的商标,不受商标法保护。商标是保护企业自身品牌权益的低成本手段…查看详情

input是什么意思中文翻译

INPUT的中文意思是什么?input意思是.输入、投入、把…输入电脑、输入的数据 英[ˈɪnpʊt]美[ˈɪnˌpʊt] n.输入,投入;输入电路;input是什么意思中文?n. 投入资源(指时间、知识、思想等);投入;输入;输入的…查看详情

css的优先级怎么判断?

css的优先级怎么判断?css选择器优先级怎么比较 CSS选择器中比较常见的有标签选择器、ID选择器、类选择器以及子选择器。而事实上,CSS选择器如果细分下来,竟然多达40多种。那他们的优先级该怎么比较呢,下面就来看看吧。 ●不同级别 …查看详情

最挣钱的五种小生意

  人到中年,失去了工作,还有家庭和孩子要养,这个时候是非常困难的,但是我们也不能颓废,我们要积极的寻找谋生的道路,那我就给大家推荐五种人人都可以干的谋生道路,赚钱还不会少!第五种生意简直是暴利!  人到中年失业,没有学历,也没有技术,有哪…查看详情

除了SAP、用友、金蝶,中小企业ERP选什么好?

在ERP软件市场,众所周知的莫过于SAP、用友和金蝶。SAP是全球性ERP巨头厂商,产品质量无可厚非,但存在价格高昂、本地化服务覆盖不全的缺陷,不太适合国内二三四线城市的中小企业选择;用友、金蝶是国内ERP的领导企业,两者都是做财务软件出身…查看详情

最新文章