服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

说说 2015年 Quora 会用到的一些非常重要的机器学习应用与技术

2021-01-04 10:14:11 阅读(166 评论(0)

Quora已经使用机器学习技术一段时间了。我们始终跟进最新的方法,对现有的方法进行重大改进。有必要提醒您,所有这些改进都是优化和测试各种离线测试方法,但最终必须通过在线A/B测试。在这篇文章中,我将谈谈Quora在2015年将使用的一些非常重要的机器学习应用和技术。(注:本文作者XavierAmatriaiain是Quora工程副总裁。)排名可以说是网上最重要的机器学习应用之一。大大小小的公司都围绕排名建立了商业模式,比如查询字符串返回的结果。Quora在不同的环境中使用不同的排名算法,目的不同。一个有趣的例子是答案排名。假设一个问题有几个答案,我们感兴趣的是如何对它们进行降序,使“最好”的答案在最前面,最坏的答案在最后。(见以下屏幕截图)。确定一个问题答案的正确排序涉及多种特征。要确定顺序,首先要确定Quora如何定义“好答案”。我们的机器学习算法实现了一种特殊的机器学习排名方法,并尝试编码与上述抽象概念相关的多个维度,具有多种功能。例如,我们使用描述写作质量信息的特征和描述答案收到的互动特征(如赞扬、踩踏和扩展数量)。我们还使用了与答案作者相关的特征,比如他在问题领域的专业性。Quora还有很多其他的排名应用,有的甚至不为人所知。例如,用户名的答案也显示在排名后,目的是把我们认为对问题/答案最有见识的用户放在第一位。同样,对于具体问题显示可能的回答者,那些推荐用户也是按顺序排列的。让我们仔细看看机器学习排名算法的两个特例:搜索和个性化排名。搜索算法可以被视为Quora等应用排名的另一个应用。事实上,搜索可以分为两个步骤:文本匹配和排名。第一步是以某种方式返回与搜索框输入的查询字符串相匹配的文档(问题)。然后,这些文档作为第二步的候选问题进行排名,以优化点击概率。第二步可以使用许多特征,这确实是机器学习排名算法的另一个例子。它包括在最初的文本匹配阶段使用的简单文本特征,以及与用户行为相关的其他特征,或流行等对象属性。在上面描述的一些场景中,个性化排名可能足以为所有用户提供全球最佳排名。换句话说,我们可以假设,对于给定的问题,最“有帮助”的答案排名对于阅读答案的用户来说是独立的。然而,这种假设在许多重要场合都没有成立。其中一个场合是QuoraFeed,从根本上说,它是任何登录本产品的用户都能看到的主页。在这个主页上,我们试图在特定的时间为特定的用户选择最“有趣”的故事,并进行排名(见下例)。这是典型的机器学习个性化排名,类似于Netflix主页对电影和电视剧的排名。而Quora的用例比Netflix电影电视剧的排名更具挑战性。事实上,我们的用例可以看作是Netflix、Facebook和GoogleNews优化个性化排名的组合。一方面要保证顶级故事在主题上与用户有关。另一方面,Quora和用户之间也有明确的关系。你在“社交网络”上的行为也应该影响排名。第三,Quora上的故事有时可能与正在进行的趋势事件有关。及时性是影响模型决策的另一个因素,决定故事的排名是应该提高还是降低。因此,Quora的个性化排名涉及到各种特征。以下列出了一些用户*的热门事件:问题/答案的质量用户感兴趣的主题。。。事实上,请记住,在Quora,我们不仅对如何吸引用户阅读有趣的内容感兴趣,而且对向能够写有趣内容的用户提交问题感兴趣。因此,我们必须包括有趣的答案和针对问题的特征。为了获得这些特征,我们使用从用户、作者和对象(如答案/问题)行为中推导出的信息。所有这些行为都被考虑在内,并在不同的时间窗口中积累,并提供给排名算法。事实上,我们可以获得许多不同的特征来添加我们的个性化推送模型,我们一直在尝试添加更多的特征。对于我们的Feed排名应用,另一个重要的考虑是,我们需要能够响应用户的行为、印象甚至流行事件。由于数以百万计的问题和答案仍在增加,因此我们无法尝试对每个用户进行实时排名。为了优化体验,我们实现了多段排名解决方案,提前对候选人进行选择和排名,然后真正实施最终排名。推荐上述个性化排名已成为推荐的一种形式。在不同的案例中使用类似的方法。举例来说,流行的Quora邮件选择包括一系列为您选择和推荐的故事。根据不同的目标函数优化,这是一种不同的机器学习排名模型。除排名算法外,我们在产品的不同部分还有其他个性化的推荐算法。例如,在几个地方,你可以看到角色或主题的推荐(见下图)。另一个推荐相关问题的来源是向用户展示其他与当前问题有一定关系的问题。另一个机器学习模型确定了相关问题,它考虑了文本相似性、共享数据等多种不同特征(co-visitdata),或者主题等相同的特征。还应考虑与流行程度或问题质量相关的特征。需要指出的是,一个好的“类似问题”推荐,不仅仅是一个项目和源问题有多相似,还有目标问题的“趣味性”。事实上,对于任何“相关项目”机器学习模型来说,最麻烦的问题是权衡相似性和其他相关因素。这个模型对于吸引用户从外部搜索中访问问题页面特别有效。这也是这个推荐模型到目前为止还没有个性化的原因之一。重复问题是上述相关问题的极端情况。对于Quora来说,这是一个难题,因为我们需要确保用户能够分享和集中精力回答特定问题。同样,也有必要为想在网站上提问的用户指出现有的答案。因此,我们花费了大量的精力来检测重复性问题,特别是在发起问题的阶段。我们现有的解决方案是基于重复/非重复标签训练的二元分类器。从文本向量空间模型到基于使用量的特征,我们使用各种信号量。在Quora这样的应用中,掌握用户的可信度/专业推断是非常重要的。事实上,我们不仅仅局限于回答问题本身,还对与相关主题的相关性感兴趣。用户可能对某些主题知识渊博,但对其他领域不一定。Quora利用机器学习技术推断用户的专业性。我们不仅知道用户对给定的主题写了什么答案,还知道这些答案得到了多少赞扬,踩了多少步,以及什么样的评论。我们也知道用户在这个领域得到了多少“推荐”。推荐(Endorsements)从其他用户的角度来看,对某人的专业性有着非常明确的认可。此外,还需要记住,可信度/专业性是通过网络传播的,这也需要算法考虑。例如,如果一位机器学习专家赞扬了我在机器学习领域的回答,它的重量应该超过该领域非专家随机用户的赞扬。这也适用于推荐和其他用户间特征。检测和控制垃圾信息(Moderation)以保持高质量内容为荣的网站,如Quora,必须对使用垃圾、恶意或非常低质量的内容愚弄系统非常警惕。纯人工审查模式无法扩展。而且解决问题的方法,正如你所猜测的那样,就是使用机器学习模型来检测这些问题。Quora有几个模型来检测内容质量相关的问题。在大多数情况下,这些分类器的输出不会直接用作决策,而是将这些问题/答案提供给控制队列,然后手动审查。内容创建的预测对Quora来说非常重要。请记住,我们优化了系统的许多部分,不仅是为了吸引读者,也是为了产生最好的质量和最受欢迎的内容。所以,我们有一个机器学习模型来预测某个用户写某个问题答案的可能性。这使得我们的系统能够以各种方式优先考虑这些问题。其中一个是自动A2A系统(AsktoAnswer),它通过提示将问题发送给潜在的回答者。上述其他排名系统也使用该模型来预测概率。Quora尝试了许多不同的模型,以上述不同的案例。有时,我们使用开源来实现,但更多的时候,我们最终实现了更有效、更灵活的内部版本。我不会讨论模型的细节,但我会列出我们系统使用的模型:逻辑回归弹性网络梯度增强决策树随机森林神经网络Lambdamart矩阵分解向量模型等自然语言处理技术。综上所述,Quora使用各种机器学习方法。我们使用这些机器学习方法获得了非常重要的好处,我们坚信未来会有更多的好处,我们将继续投资于新技术。此外,在不久的将来,还有令人兴奋的机器学习新应用程序,我们已经考虑过了。这些新应用包括广告排名、机器翻译等自然语言处理领域,将直接成为我们计划立即添加的产品的新特征。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

dns服务器有什么用 什么是DNS服务器

相信很多没有接触过服务器的朋友都对d1服务器不是很熟悉,主要是计算机相关的工作人员对d1服务器比较熟悉,下面万商云集*给大家普及一下d1服务器有什么用 什么是DNS服务器这一块的内容,希望能帮助到大家了解到d1服务器这一块的内容。  什么是…查看详情

windows10怎么运行debug

  一、windows10如何运行debug:  Debug是一种调试工具,可用于定位和解决软件程序中的问题。以下是windows10上运行debug的方法:  1. 安装debug工具:通常情况下,debug通常作为IDE(集成开发环境…查看详情

关于企业erp管理系统软件介绍

近年来,随着市场化程度的深化与竞争的日趋激烈,适时导入企业erp管理系统软件,能帮助企业实现最佳资源组合,取得最佳效益。但仍然有很多人对企业erp管理系统软件不了解,今天小万就为大家做下企业erp管理系统软件介绍,帮助大家了解这个高效实用的…查看详情

专利的优先权期是多久 专利的优先权期时长

  在平时很多的小伙伴都不知道专利的优先权期是多久的基本情况,而且对专利的优先权期是多久都不是很熟悉,下面万商云集*就为大家整理了专利的优先权期是多久这方面的相关内容,希望下面的内容能帮助到各位。    一、专利的优先权期是多久  六个月或…查看详情

食堂消费管理系统规范食堂消费

有些企业设置了食堂,但是在食堂消费的员工却或多或少有着一些怨言,有些公司要求员工用餐必须在食堂,不允许都外面吃,而且餐费补贴也只能在食堂使用,并且每个月必须用完,否则清零,这些都让企业员工对食堂和企业产生了抵触和不满,而且很多时候食堂的饭菜…查看详情

【版权登记相关信息大汇总】一份版权登记指南送给你

有版权登记需求的人越来越多,但了解相关知识的人却不多。今天小万将汇总所有版权登记相关信息,打包一份版权登记指南送给你。 图片来源于网络 ■ 版权登记指南一:版权保护期限版权保护期限为公民的,为作者一生至死后第50年的12月31日止;为法人…查看详情

好用且免费的安卓文件管理器,总有一款适合你

在浏览手机里的文档这件事情上,Android系统跟iOS系统对比来讲确实是易如反掌。绝大多数手机制造商也内嵌了文件管理器。可是手机制造商内嵌的文件管理器绝大多数功能简单,且无法打开安装的系统文件。今日给你详细介绍4款第三方文件管理器,他们各…查看详情

专门看泰剧的app,享受更多泰剧精彩内容

喜欢看泰剧的人们,一定都有很多精彩的泰剧意犹未尽,比如说泰版的浪漫满屋,还有一吻定情等等,都值得*,但是在普通的APP中可能会受到限制,不妨选择专门看泰剧的一些APP,可以让大家看到更丰富的影视资源。那么下面就为大家进行介绍各种…查看详情

放量滞涨意味着什么

  放量滞涨是股票交易过程中常见的一个现象,指的是在交易量增加的情况下,股票价格却没有大幅上涨的现象。放量滞涨的出现通常与市场的供需关系变化有关,其中的影响因素包括市场情绪、宏观经济环境和公司业绩等方面。下面,我们将详细介绍放量滞涨的含义、…查看详情

双11最后冲刺,春熙路户外LED广告翘首盼销冠客户!(文末送*)

万商云集双11线上集市11月4号开市至今参与的16家企业均已取得不俗的业绩 目前,暂时排名前三的企业分别是:01 贵州省威宁县乌蒙精品苹果产销专业合作社▼02 北京中焙国际食品有限公司▼03 广州市盛昊糖烟酒有限公司▼本次活动将在15号结束…查看详情

响应式网站设计是由谁提出的?

网站建设可以说是非常重要的,网站建设是属于每一家公司的门面,因此在建设的时候应该要采用比较好的模式,这样才能够抓住很多客户,但是现在很多人在网上浏览的时候都会采用5G移动设备这个时候如果建立常规的网站,就不能够更好的展现出网站的…查看详情

iphone x max尺寸是多少

xsmax太大吗?不会的。这个手机的尺寸是6.55寸的,是可以单手掌握的,同时是一个16比9的全面屏,还是能够让你非常流畅的使用,看上去是很小巧的iphonex5max尺寸?苹果x5max尺寸:高度157.5毫米,宽度77.4毫米,厚度7.…查看详情

亚马逊的东西是正品吗 亚马逊的东西是不是正品

亚马逊发布2021 品牌保护报告,驳回了超过250万个店铺注册申请,追究售假者责任,亚马逊成立了全球打假团队,很多的消费者比较关心的一个话题就是亚马逊的东西是正品吗 亚马逊的东西是不是正品,下面就跟随*来看一下这一块的内容。  亚马逊发布…查看详情

如何选择库存管理系统(库存管理系统软件哪个好)

库存管理系统我们并不陌生,无论是公司还是商户或者是店面,只要有实体产品的地方都是需要库存管理系统的,说白了,无论是进货多少还是出货多少,今天的营业额等等管理商品管理方面,都可以看到这款系统的影子,那么今天我们就来盘点一下库存管理系统。1、商…查看详情

采购软件大全-最好用的采购管理软件

现在的大型企业用到的东西都是有专人去购买的,但是,有些领导担心别人会多报价,这样就亏了,因此,就想要安装一个采购管理的软件,这样不用担心出错,那么,采购管理软件系统有哪些? 1.百卓优采采购管理软件 百卓优采采购管理软件是一…查看详情

最新文章