说说 2015年 Quora 会用到的一些非常重要的机器学习应用与技术
2021-01-04 10:14:11 阅读(164) 评论(0)
Quora已经使用机器学习技术一段时间了。我们始终跟进最新的方法,对现有的方法进行重大改进。有必要提醒您,所有这些改进都是优化和测试各种离线测试方法,但最终必须通过在线A/B测试。在这篇文章中,我将谈谈Quora在2015年将使用的一些非常重要的机器学习应用和技术。(注:本文作者XavierAmatriaiain是Quora工程副总裁。)排名可以说是网上最重要的机器学习应用之一。大大小小的公司都围绕排名建立了商业模式,比如查询字符串返回的结果。Quora在不同的环境中使用不同的排名算法,目的不同。一个有趣的例子是答案排名。假设一个问题有几个答案,我们感兴趣的是如何对它们进行降序,使“最好”的答案在最前面,最坏的答案在最后。(见以下屏幕截图)。确定一个问题答案的正确排序涉及多种特征。要确定顺序,首先要确定Quora如何定义“好答案”。我们的机器学习算法实现了一种特殊的机器学习排名方法,并尝试编码与上述抽象概念相关的多个维度,具有多种功能。例如,我们使用描述写作质量信息的特征和描述答案收到的互动特征(如赞扬、踩踏和扩展数量)。我们还使用了与答案作者相关的特征,比如他在问题领域的专业性。Quora还有很多其他的排名应用,有的甚至不为人所知。例如,用户名的答案也显示在排名后,目的是把我们认为对问题/答案最有见识的用户放在第一位。同样,对于具体问题显示可能的回答者,那些推荐用户也是按顺序排列的。让我们仔细看看机器学习排名算法的两个特例:搜索和个性化排名。搜索算法可以被视为Quora等应用排名的另一个应用。事实上,搜索可以分为两个步骤:文本匹配和排名。第一步是以某种方式返回与搜索框输入的查询字符串相匹配的文档(问题)。然后,这些文档作为第二步的候选问题进行排名,以优化点击概率。第二步可以使用许多特征,这确实是机器学习排名算法的另一个例子。它包括在最初的文本匹配阶段使用的简单文本特征,以及与用户行为相关的其他特征,或流行等对象属性。在上面描述的一些场景中,个性化排名可能足以为所有用户提供全球最佳排名。换句话说,我们可以假设,对于给定的问题,最“有帮助”的答案排名对于阅读答案的用户来说是独立的。然而,这种假设在许多重要场合都没有成立。其中一个场合是QuoraFeed,从根本上说,它是任何登录本产品的用户都能看到的主页。在这个主页上,我们试图在特定的时间为特定的用户选择最“有趣”的故事,并进行排名(见下例)。这是典型的机器学习个性化排名,类似于Netflix主页对电影和电视剧的排名。而Quora的用例比Netflix电影电视剧的排名更具挑战性。事实上,我们的用例可以看作是Netflix、Facebook和GoogleNews优化个性化排名的组合。一方面要保证顶级故事在主题上与用户有关。另一方面,Quora和用户之间也有明确的关系。你在“社交网络”上的行为也应该影响排名。第三,Quora上的故事有时可能与正在进行的趋势事件有关。及时性是影响模型决策的另一个因素,决定故事的排名是应该提高还是降低。因此,Quora的个性化排名涉及到各种特征。以下列出了一些用户*的热门事件:问题/答案的质量用户感兴趣的主题。。。事实上,请记住,在Quora,我们不仅对如何吸引用户阅读有趣的内容感兴趣,而且对向能够写有趣内容的用户提交问题感兴趣。因此,我们必须包括有趣的答案和针对问题的特征。为了获得这些特征,我们使用从用户、作者和对象(如答案/问题)行为中推导出的信息。所有这些行为都被考虑在内,并在不同的时间窗口中积累,并提供给排名算法。事实上,我们可以获得许多不同的特征来添加我们的个性化推送模型,我们一直在尝试添加更多的特征。对于我们的Feed排名应用,另一个重要的考虑是,我们需要能够响应用户的行为、印象甚至流行事件。由于数以百万计的问题和答案仍在增加,因此我们无法尝试对每个用户进行实时排名。为了优化体验,我们实现了多段排名解决方案,提前对候选人进行选择和排名,然后真正实施最终排名。推荐上述个性化排名已成为推荐的一种形式。在不同的案例中使用类似的方法。举例来说,流行的Quora邮件选择包括一系列为您选择和推荐的故事。根据不同的目标函数优化,这是一种不同的机器学习排名模型。除排名算法外,我们在产品的不同部分还有其他个性化的推荐算法。例如,在几个地方,你可以看到角色或主题的推荐(见下图)。另一个推荐相关问题的来源是向用户展示其他与当前问题有一定关系的问题。另一个机器学习模型确定了相关问题,它考虑了文本相似性、共享数据等多种不同特征(co-visitdata),或者主题等相同的特征。还应考虑与流行程度或问题质量相关的特征。需要指出的是,一个好的“类似问题”推荐,不仅仅是一个项目和源问题有多相似,还有目标问题的“趣味性”。事实上,对于任何“相关项目”机器学习模型来说,最麻烦的问题是权衡相似性和其他相关因素。这个模型对于吸引用户从外部搜索中访问问题页面特别有效。这也是这个推荐模型到目前为止还没有个性化的原因之一。重复问题是上述相关问题的极端情况。对于Quora来说,这是一个难题,因为我们需要确保用户能够分享和集中精力回答特定问题。同样,也有必要为想在网站上提问的用户指出现有的答案。因此,我们花费了大量的精力来检测重复性问题,特别是在发起问题的阶段。我们现有的解决方案是基于重复/非重复标签训练的二元分类器。从文本向量空间模型到基于使用量的特征,我们使用各种信号量。在Quora这样的应用中,掌握用户的可信度/专业推断是非常重要的。事实上,我们不仅仅局限于回答问题本身,还对与相关主题的相关性感兴趣。用户可能对某些主题知识渊博,但对其他领域不一定。Quora利用机器学习技术推断用户的专业性。我们不仅知道用户对给定的主题写了什么答案,还知道这些答案得到了多少赞扬,踩了多少步,以及什么样的评论。我们也知道用户在这个领域得到了多少“推荐”。推荐(Endorsements)从其他用户的角度来看,对某人的专业性有着非常明确的认可。此外,还需要记住,可信度/专业性是通过网络传播的,这也需要算法考虑。例如,如果一位机器学习专家赞扬了我在机器学习领域的回答,它的重量应该超过该领域非专家随机用户的赞扬。这也适用于推荐和其他用户间特征。检测和控制垃圾信息(Moderation)以保持高质量内容为荣的网站,如Quora,必须对使用垃圾、恶意或非常低质量的内容愚弄系统非常警惕。纯人工审查模式无法扩展。而且解决问题的方法,正如你所猜测的那样,就是使用机器学习模型来检测这些问题。Quora有几个模型来检测内容质量相关的问题。在大多数情况下,这些分类器的输出不会直接用作决策,而是将这些问题/答案提供给控制队列,然后手动审查。内容创建的预测对Quora来说非常重要。请记住,我们优化了系统的许多部分,不仅是为了吸引读者,也是为了产生最好的质量和最受欢迎的内容。所以,我们有一个机器学习模型来预测某个用户写某个问题答案的可能性。这使得我们的系统能够以各种方式优先考虑这些问题。其中一个是自动A2A系统(AsktoAnswer),它通过提示将问题发送给潜在的回答者。上述其他排名系统也使用该模型来预测概率。Quora尝试了许多不同的模型,以上述不同的案例。有时,我们使用开源来实现,但更多的时候,我们最终实现了更有效、更灵活的内部版本。我不会讨论模型的细节,但我会列出我们系统使用的模型:逻辑回归弹性网络梯度增强决策树随机森林神经网络Lambdamart矩阵分解向量模型等自然语言处理技术。综上所述,Quora使用各种机器学习方法。我们使用这些机器学习方法获得了非常重要的好处,我们坚信未来会有更多的好处,我们将继续投资于新技术。此外,在不久的将来,还有令人兴奋的机器学习新应用程序,我们已经考虑过了。这些新应用包括广告排名、机器翻译等自然语言处理领域,将直接成为我们计划立即添加的产品的新特征。
推荐阅读
- win10正版多少钱一套
Win10正版的收费标准 Win10正版的收费标准是由微软公司制定的,目前在中国大陆地区的官方售价为998元/套,也就是说,用户需要花费近千元的价格才可以购买到一套正版的Win10系统。 此价格只是针对个人用户而言,对于企业用户和教…查看详情
- 浴霸十大品牌
1、阿特美家-浴霸十大品牌之一 阿特美家作为国内浴霸的知名品牌之一,其产品在市场上一直都有着较高的口碑和知名度。其产品主要集中在智能浴霸、豪华浴霸、中档浴霸、低档浴霸等多个档次,可以满足不同消费者的需求。阿特美家的产品主要以一体成型、…查看详情
- 4款操作简单不用去电脑店,自己也能重装电脑系统软件
不管是笔记本电脑还是台式电脑,我们都必须要进行装机,才可以确保电脑的流畅度,一旦出现不流畅的情况,不管是打游戏还是看电视都会影响心情,因此,一键装系统的软件有哪些? 1、360系统重装大师 是一款*重装的专用工具,采用好的安…查看详情
- 微博怎么发文章 微博发文章技巧
微博是基于用户关系的社交媒体平台,用户可以通过PC、手机等多种移动终端接入,以文字、图片、视频等多媒体形式,实现信息的即时分享、传播互动。绝大多数人玩微博的目的就是为了更好地阅读资讯,得到自身感兴趣的一些信息内容。为了时时刻刻关注自己的…查看详情
- 了解商标注册受理事项,如受理周期、通知书下发时间...
商标注册受理,其实就是指提交商标注册申请和资料后,由相关人员进行初步审核后,确定是否此商标注册申请。简单来说,商标注册受理就是告诉你,商标局接受该申请并开始进行审查。 图片来源于网络 商标注册受理事项一:商标注册申请被受理是成功通过吗? 不…查看详情
- 零经验新手怎样做电商
没有经验的新手可不可以做电商呢?怎样做电商可以避免采坑呢? 新手当然可以做电商,电商行业的大佬也从零经验慢慢做到现在的高度的。而且现在新手做电商的环境比以前好了很多,怎样做电商可以避免采坑的问题也能得到解决。有很多前人的电商经营经验可以,很…查看详情
- 安装eclipse的详细步骤
linux环境下怎么安装eclipse?在linux下安装eclipse方法: 一.下载eclipse安装包(.tar.gz)下载地址:http://www.eclipse.org/downloads/建议下载那个forJ2EE的,嘿嘿,…查看详情
- 一款先进的企业管理工具——总管家CRM
总管家CRM,销售管理好帮手!这是一款基于移动互联网模式,适合销售团队和销售员个人使用的客户关系管理软件。系统以客户为中心,具备完善的客户资料管理、订单收款管理、销售业绩督导、客户跟单流程、数据报表分析以及日程任务审批等OA办公功能。总管家…查看详情
- 公司注销后专利属于谁 公司注销后专利归属
在平时很多的小伙伴都不知道公司注销后专利属于谁的基本情况,而且对公司注销后专利属于谁都不是很熟悉,下面万商云集*就为大家整理了公司注销后专利属于谁这方面的相关内容,希望下面的内容能帮助到各位。 一、公司注销后专利归属 除非原…查看详情
- 四款测温软件24小时守护宝宝,1分钟快速测温
现在有很多比较先进的东西,测温这方面设置的也越来越先进,不需要温度计就可以测量温度,对于小宝宝来说是一种*,那么,我们需要提前了解一下测温软件都有什么这个问题。 1、24小时不断监控 24小时不断监控小孩体温,2秒左右收集一…查看详情
- 淘宝网店客服怎么做
网店客服是通过网店的一种服务形式,通过网络,开网店,提供给客户解答和售后等的服务,称为网店客服。网店客服主要是针对网店客服就是阿里软件,提供给淘宝掌柜的在线客户服务系统,旨在让淘宝掌柜更高效的管理网店、及时把握商机消息,从容应对繁忙的生意。…查看详情
- 根据调查数据而总结出的几款好用浏览器
网络的普及,对于浏览器的使用已经有了非常成熟的使用市场,这里根据浏览器使用的调查数据做个总结,毕竟浏览器使用内卷严重了呀。不过优质浏览器还是有共性的:要求简洁干净不附加七七八八的补丁,以下是笔者的一些搜集分析: 1、谷歌 …查看详情
- 网络销售怎么样?网络销售具有什么特点?
随着互联网的发展,网络信息化时代的到来,网购平台现在的发展趋势,已经是我们无法想象的了,网购是指网上进行购物,那么这就联系到了网洛销售。网络销售具有低成本,灵活度高,不会受到时空的限制。那么网络销售怎么样呢??下面*为大家介绍,网络销售都有…查看详情
- 注册商标与未注册商标的区别:外观不同、法律地位不同
大家在商场购买东西的时候,都会看见各种各样的商标,这个商标有的是还在申请中,有的是已经注册完成的。申请中的和已经注册完毕的商标是不同的,下面,小万整理了注册商标与未注册商标的相关知识,为了帮助大家更好的了解商标知识。图片来源于网络 注册商标…查看详情
- 同样是《尼泊尔公约》成员国,美国版权要不要登记?
《尼泊尔公约》主要涉及对作品和作者权利的保护,世界上大多数国家都是该公约的成员国,美国也是成员国之一。该公约的核心就是成员国都应自动保护联盟所属的其它各国中首先出版的作品和和保护其作者是上述其他各国的公民或居民的未出版的作品。在《公约》的保…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00















































注册有好礼



