服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

揭秘目前淘宝搜索的算法

2020-12-18 11:45:06 阅读(198 评论(0)

本文由淘宝搜索算法总监青峰撰写,介绍了算法模型、线下评估、线上测试的机制。对想了解淘宝搜索算法的同学很有帮助。作者介绍:青峰,淘宝搜索算法总监。淘宝搜索排名的目的是帮助用户快速找到所需的商品。从技术上讲,在用户输入与关键词匹配的产品中,最符合用户需求的产品排名第一,其他产品排名第二。为了更好地实现这一目标,算法排序系统基本上从三个方面进行了推广:一是.当用户输入关键字搜索算法模型时,系统根据算法模型实时计算匹配的每个产品,并根据分数的大小对产品进行排序。对于好的算法模型,首先要考虑哪些特征因素可以应用。例如,在网页搜索中,算法模型基本上是根据网页的重要性和相关性来计算网页的分数,然后进行排序。这里的相关性和重要性是网页排名模型中的两个重要因素。具体来说,相关因素是指文档中搜索关键字的程度,当程度越高时,文档的相关程度就越高。Google的Pagerank等重要因素可以理解为网页入口中超链接的数量:一个网页被其他网页引用的越多,网页就越有价值。特别是,网页越重要,网页的重要性就越高。在考虑淘宝搜索时,很容易想到一些特征因素,比如A.文本相关性:关键词与商品的匹配、匹配程度、重要词的匹配、匹配词之间的距离等,都可能影响相关性。例如,在搜索“小鸭洗衣机”时,商品的中心词是洗衣机的相关性高于销售洗衣机配件的相关性,小鸭的相关性高于“小”和“鸭”分开时的相关性。BM25等是文本相关性最基本的计算方法。B.类别热点:淘宝数据的一个重要特点是,每种商品都附着在类别属性系统下,每种商品都做了很好的分类。在搜索过程中,同一搜索词的大量用户行为数据很容易集中在相应的热门类别上。例如,“手机”的搜索行为将集中在手机类别上,而不是配件类别上。C.图片质量:图片是电子商务网站的一个非常重要的数据。图片是否精致、有吸引力,图片中是否有各种“银屑病”,以及商品匹配,都极大地影响了用户的点击和购买决策。D.商品质量:每种商品质量不同,商品描述的真实性,是否质优价廉,受欢迎程度等.作弊因素:类似于全网搜索中的关键词堆砌,linkspam,网页重复等作弊问题,电子商务搜索也面临着同样的问题,如商品关键词堆积、重复分销、重复开店、广告商品排水等,也有价格作弊、交易作弊等独特的商品问题,需要使用统计分析或机器学习来发现和识别异常规律,并应用于F的排序.公平因素:淘宝商品非常丰富,每个搜索词都有足够的商品竞争,需要让更多的商品和卖家有机会展示相似的质量,而不是像网络搜索是一个基本的静态排名,作为商品点击和显示马太效应。类似商品、卖家、买家、搜索词等方面有许多特征因素。一个排名模型是将各种不同的特征因素结合起来,给出商品相关分数的最终关键词。类似商品、卖家、买家、搜索词等方面有很多特征因素。一个排名模型是将各种不同的特征因素结合起来,给出商品相关性分数的最终关键词。只有一两个特征因素,才能对商品进行最基本的排名。如果有更多的特征参与排序,我们可能会得到更好的排序算法。组合方法可以简单地人工配置到复杂的学习模型,如Learningtorank。那么如何衡量不同算法之间的优缺点呢?二.线下评估算法模型的评估一般分为线下评估和在线评估。许多线下评估反映在搜索中常用的相关性(Relevance)指标。相关性的定义可分为狭义相关性和广义相关性。狭义相关性一般是指检索结果和用户查询的相关性。从广义上讲,相关性可以理解为用户查询的综合满意度。当用户在搜索框中输入关键字并满足需求时,体验过程越顺畅、越方便,搜索相关性就越好。当淘宝搜索衡量狭义相关性时,通常使用PI(PerItem)测试方法:A.提取具有代表性的查询关键字,形成适当规模的关键字集合B.对于此关键字集,从模型的输出结果中查询相应的结果,进行人工标注(人工判断为相关性好,中,差等).    对于人工评估的结果数据,使用预定义的评估计算公式,如DCG,使用数值方法来评估算法模型的结果和理想结果的接近度,使用人工标记数据来计算相关的分数来判断模型的质量;在这个过程中,不可避免地会有主观的判断,然而,通过整合多人的判断结果,我们仍然可以获得具有统计意义的结果。另一方面,标记数据也可以帮助我们找到一个算法性能不理想的地方,并有针对性地改进它。广义相关性线下评价难度大,受人工主观因素影响较大。SBS通常用于一般(SidebySide)评价方法,对于一个关键字,两个不同算法模型的输出结果同时显示在屏幕上,每个新模型和比较模型显示位置关系立即,手动判断不知道哪一边的数据是新模型的结果,手动判断搜索结果好,新模型和旧模型的搜索性能是通过最终的统计结果来衡量的。线下评价的方法和指标有很多,不同的搜索引擎会*不同的指标。比如Yahoo的全网搜索引擎之前更*RCFP。(Relevance,Coverage,Freshness,Perspective)等等,淘宝搜索线下评估时一般统计DCG和SBS的指标。线下评价方法在统计上具有一定的指导意义,可以在一定程度上区分模型的质量。然而,要真正验证算法模型的质量,还需要接受真实的流量来验证。线下评价方法在统计上具有一定的指导意义,可以在一定程度上区分模型的质量,但要真正验证算法模型的质量,还需要接受真实的流量来验证。三.为了真正验证算法模型的质量,在线测试需要一个能够提供真实流量的系统。淘宝搜索实现BTS(BucketTestingSystem)系统就是这样一个环境,在用户搜索时,搜索系统会根据一定的策略自动决定用户的分组号(Bucketid),确保自动提取导入不同组的流量具有可比性,然后让不同组的用户看到不同算法模型提供的结果。通过数据分析,记录用户在不同模型下的行为,形成一系列指标。通过对这些指标的比较,最终形成了不同模型之间的结论。数据指标在统计意义上具有可比性,只要分组的流量达到一定程度。不同的BTS系统会*不同的数据指标。在淘宝搜索中,很多算法模型测试都会*一些重要指标:访问UV交易转化率:来淘宝搜索的UV,最终通过搜索结果交易的用户比例。IPV-UV转换率:有多少用户点击淘宝搜索的UV搜索结果CTR?:点击搜索产生的PV比例客户单价:淘宝搜索中每个交易用户的平均价格基尼系数:基尼系数是一个经济术语,考虑社会财富的集中;如果社会财富集中在少数富人手中,基尼系数就会增加,社会稳定性和可持续发展会出现问题;淘宝搜索借用这个概念来衡量PV显示和点击的集中度,在保证用户体验的前提下,给更多高质量或小而漂亮的卖家展示的机会。大多数时候,我们有几个模型和功能在线测试。我们使用BTS来观察测试情况。如果我们提高稳定性,我们将逐渐向所有用户开放。如果没有改进,我们也可以获得经验,帮助我们更好地理解用户。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

网上开店没货源怎么办?这几个稳定的货源渠道了解一下

货源的好坏影响着网店的运营,决定着品牌在消费者心中的刻板印象。因此,如何寻找货源、如何选择好货源,对于新手卖家来说至关重要,以下5个稳定货源渠道了解一下! 1. 阿里巴巴 阿里巴巴是国内最大的线上釆购批发平台,为数千万网商提供了海量商业信息…查看详情

json*解析怎么用

jsonpath可以用于解析网页数据吗?是的,JSONPath可以用来解析网页数据。它可以用来快速提取和检索任何给定网页数据中的元素,而不必手动检查或解析每个值。 它可以在JSON,XML,YAML和HTML之间方便地转换,使你使用一种格…查看详情

【了解国外知识产权登记内容】德国版权登记、专利申请流程

现今对作品申请版权登记、专利等以获得法律保护,已不仅限于国内了。我国创作者可在国外进行申请,外国人也可在我国进行申请。下面小万将为大家介绍关于德国版权登记、专利申请流程。 图片来源于网络 ▲ 德国版权登记流程:与我国版权登记流程几乎无区别…查看详情

美术作品著作权登记是什么?作品的发表时间如何确定?

一件美术作品可以带给我们艺术上的享受,美的享受。在现如今这个经济时代,一件完美的美术作品是可以通过买卖获取极大利益的,但是美术作品需要拥有版权,否则很容易被别人模仿,给自己的权益带来侵害。今天,小万就给大家说一说美术作品著作权登记那些事。 …查看详情

默认网关不可用如何解决?这几种方法可以解决

  对于路由器不熟悉的用户,可能不知道默认网关是什么,它是用于网络相连的系统,可以使得两台设备互相连接,但是很多的朋友在使用电脑路由器的时候经常遇到默认网关不可用这个情况,下面*就给大家来详细介绍一下默认网关不可用如何解决这一块的内容,希望…查看详情

六款好用的*客服系统免费版

随着科技的发展以及科技的进步,客服的工作也越来越复杂多样,客服系统软件可以使客服的工作变得系统化,调理化,下面我给大家介绍六款好用的*客服系统软件免费版。 1、米多客 米多客是由大连米云科技有限公司针对企业咨询开发的一款*客服工具。主要提供…查看详情

传统企业电商之路:开始之前

随着电商行业的发展,一个又一个的像“林氏木业”、“三只松鼠”等商业传奇不断的出现,传统企业主面对这不断严峻的竞争环境和新模式下快速成长的“新势力”的冲击中,纷纷也开始走了自己的电商之路,准备成为下一个歌颂的对象。但是多年的传统经验和身处高位…查看详情

推荐几款好用的英语小说软件,想看的应有尽有

喜欢看英语小说,不仅可以购买一些纸质小说,同时也可以选择好用的英语小说软件,应用起来更加的简单方便,其中所包含的内容也是非常丰富的,但是面对多种不同的英语小说软件,可能大家不知道该如何选择,那么下面就为大家推荐几款,好用的英语小…查看详情

靠谱的网上客服系统,帮助店铺智能留客

随着网络销售、*商铺的遍地开花,网上客服需求量也在逐渐增高,商户及网络平台对于网上客服系统的使用频率、使用要求随之变多。越来越多的商户希望可通过简单的*客服系统完成店铺的客服导入。那么,靠谱的网上客服系统有哪些呢? 1、智齿…查看详情

末世小说排行榜,这几本十分好看

在民间流传着某些年是世界末日的传说,人们对于世界末日也有着一定的好奇心,甚至打败了恐惧的心理,所以各种世界末日的小说和影片也迎刃而生,那么关于一些好看的末世小说进行介绍,想看的话一定不要错过。 1、狩魔手记 这部小说在20…查看详情

有哪些适合文本阅读的软件?这4款适合闲暇之余打发时间

现在社会,需要阅读的地方越来越多,我们能从阅读里获得的知识也越来越多。有哪些适合文本阅读的软件呢?快来看看我的推荐吧。 1.书旗小说 书旗小说app可以简单快捷的看各种小说,各种类型小说都可以选择,而且APP新手还有机会获得…查看详情

产品卖点找得好,品牌传播自然快

过去,企业提炼产品卖点是从自身出发,自己决定产品的优势是什么,然后通过媒体广告告诉消费者,那么有该卖点需求的消费者就可能成为企业的客户。但如今,市场产品包罗万象,同一类需求的产品可能存在成百上千种品牌,你的产品优势也正是别人的卖点。消费者成…查看详情

涵盖6大模块的创新智能化售后服务管理

售后服务是售后最重要的环节。售后服务已经成为了企业保持或扩大市场份额的要件(如舒达、天猫、京东等)。售后服务的优劣能影响消费者的满意程度。在购买时,商品的保修、售后服务等有关规定可使顾客摆脱疑虑、摇摆的形态,下定决心购买商品。优质的售后服务…查看详情

3款可以直接网页登陆的库存管理软件

库存的管理是一件非常重要的事情,但是,每个人对于库存管理的要求不一样,有的人会直接让员工做好管理,有的人则会选择软件管理,那么,关于网页库存管理软件都有哪些呢? 1、小库存管理 小库存管理聚集了库存量预警信息、订单管理、产品…查看详情

2021最新中国网店代运营前7排名

随着时代的发展,各行各业都涌现出了新的不一样,而网店代运营就是其中之一。它通过高效的服务、方便的管理闻名于世。本期*就整理了七个在本行业较为出名的网店代运营公司,希望能为各位提供帮助。 1.宝尊电商网店代运营 宝尊电商于2006年在上海成立…查看详情

最新文章