服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

分析美团点评是如何通过机器学习,来获得有价值的数据推荐。

2020-12-30 14:02:55 阅读(152 评论(0)

在美团商家数据中心(MDC),POI数据已经校准和审核超过100w(我们通常将业务标记为POI,POI基本信息包括:商店名称、类别、电话、地址、坐标等)。如何使用这些校准的POI数据来挖掘有价值的信息,本文进行了一些尝试:使用机器学习方法自动标记缺失类别的POI数据。例如,商店名称为“好牛肉拉面店”的POI将自动标记“零食”类别。机器学习解决问题的一般过程:本文将按:1)特征表示;2)特征选择;3)基于NaiveBayes分类模型;4)分类预测,四部分顺序。特征表明,我们需要首先将实际问题转换为计算机可识别的形式。对于POI来说,反映POI类别的一个重要特征是POI商店名称,因此问题转换为根据POI商店名称来判断POI类别。POI字段属于文本特征,传统的文本表示方法是基于向量空间模型(VSM模型)[1]:空间向量模型需要一个样本或外部导入的“字典”。上图中的字典是[好,酒店,海底,拉面,冰雪,.......,博物馆]。对于已校准的POI,我们首先使用Lucene的中文分词工具SmartCn[2]对POI名称进行预分词处理,并提取特征词作为原始粗糙字典集合。有了字典,你可以定量地表示一个文本。首先定义与字典长度相同的向量,向量中的每个位置对应字典中相应位置的单词。然后通过文本,在向量中的相应位置填写“一定值”(即特征词的权重,包括BOOL权重、词频权重、TFIDF权重)。考虑到一般的POI名称属于短文本,本文使用BOOL权重。在产生粗糙的字典集合时,我们还统计了校准POI中的每个类别(type_id),以及特征词(term)在品类(type_id)出现次数(文档频率)。分别写入表category_frequency和term_category_frequency,表的部分结果如下:category_frequency表:term_category_frequency表:分别记:   A(i,j)=特征词term(i)类别为type_id(j)count出现的次数   T(j)=类别为type_id(j)样本集出现的次数      N=校准POI数据集的数量将在后续计算中发挥作用。现在,我们得到了一个“预输入字典”:包括校准POI名称字段的所有特征词,如“88”、“11”,“3”、“auyi”、“中心”、“中国”、“酒店”、“自助餐”、“拉面”等。直觉,“88”、“11”,“3”、“auyi”、“中国”这个词对判断类别没有多大帮助,但“酒店”、“自助餐”、“拉面”在判断POI类别方面可能起着非常重要的作用。那么问题是,如何选择有利于模型预测的特征呢?这涉及到特征选择。特征选择方法可分为基于领域知识的规则方法和基于统计学习方法。本文采用统计机器学习方法和辅助规则方法的特征选择算法,选择有利于判断POI类别的特征词。基于统计学习的特征选择算法一般可分为两种:1。基于相关性测量(信息理论相关性)2。基于信息增益方法的特征空间表示(典型的PCA)(IG)特征选择方法[3]。特征信息增益是指在已知特征条件下,整个系统信息量的前后变化。如果前后信息量变化越大,特征的作用就越大。那么,如何定义信息量呢?一般来说,熵的概念用于衡量系统的信息量:当我们已知该特征时,从数学的角度来看,我们已知该特征的分布。系统的信息量可以用条件熵来描述:该特征的信息增益定义为:信息增益得分衡量该特征的重要性。假设我们有四个样本,样本的特征词包括“火锅”、“米粉”、“博物馆”,我们利用信息增益来判断不同特征对决策的影响:整个系统的最原始信息熵为:分别计算每个特征的条件熵:利用整个系统的信息熵减去条件熵,获得每个特征的信息增益分数排名(“火锅”(1)>“米粉”(0.31)>“博物馆”(0))根据得分由高到低选择所需的特征词。本文采用IG特征选择方法,选择排名靠前的N个特征词(前30%)。我们选择了前20个特征词:[酒店、酒店、火锅、摄影、眼镜、美容、咖啡,ktv,造型、汽车、餐厅、蛋糕、儿童、美发、商务、旅行社、婚纱、俱乐部、工作室、烧烤]。这些特征词显然与类别属性有很强的相关性,我们称之为类别词。基于领域知识的特征选择方法基于规则的特征选择算法,利用领域知识选择特征。目前,基于规则的特征选择算法很少单独使用,通常结合统计学习的特征选择算法,辅助选择特征。本文需要解决POI名称字段短文本的自动分类问题。POI名称字段一般符合此规则,POI名称=名称核心词 类别词。名称核心词对实际类别预测影响不大,有时“过度学习”起到负面作用。例如,“好利来牛肉拉面店”和“好利来”是它的名称核心词。在使用学习算法时,很可能会学习“蛋糕”类别(“好利来”和“蛋糕”类别之间有很强的相关性,并得出错误的预测结论)。本文利用该规则在选择特征时制定了提示:利用特征选择获得的特征词(大部分是类别词),将POI名称的字段分割成单词,丢弃前一部分(主要是名称核心单词),并保留剩余部分。从目前的评估结果来看,大约5%的精度会提高,缺点是算法覆盖率会降低#分类模型##建模完成特征表示和特征选择后,下一步是培训分类模型。机器学习分类模型可分为两类:1)生成模型;2)识别模型。可以简单地认为,两者之间的区别生成模型直接建模样本的联合概率分布:生成模型的困难在于如何估计类概率密度分布p(x |y)。本文采用了简单的贝叶斯模型"Naive"在简化对类概率密度函数时,假设条件是独立的:根据对p(x|y)不同的建模形式,NaiveBayes模型主要分为:Muti-variateBernoulliModel(多项伯努利模型)和Multinomialeventmodel(多项事件模型)[4]。伯努利事件相当于硬币事件(0,12种可能性),多个事件相当于颜色(1到6种可能性)。伯努利事件相当于硬币事件(0,12种可能性),多个事件相当于颜色(1到6种可能性)。我们结合传统的文本分类来解释这两种模型:在多个伯努利模型已知类别的情况下,多个伯努利对应于样本生X的过程:字典中的每个单词(t1和t2...判断这个词是否出现在样本中。每次遍历都是伯努利实验,|V|次遍历:其中1(condition)作为条件函数,该函数表示当条件成立时等于1,不成立时等于0;|V|代表字典的长度。在多个事件模型已知类别的情况下,多个事件模型假设样本的生成过程:从字典中选择文本中第k位置的单词,每个位置k生成的单词对应于多个事件。样本X=(w1,w2...ws)类概率密度:当样本用向量空间模型表示时,上部转换为:N(ti,X)在样本X中表示特征词i的次数。##经过大量无聊公式的折磨,我们终于看到了胜利的曙光:模型参数的估计。一般的方法包括最大的似然估计、最大的后验概率估计等。本文采用多个伯努利模型,我们直接给出了多个伯努利模型参数的估计结论:记住特征表示一节中统计的term_category_frequency和category_frequency两张表?这时,就要发挥它的作用了!我们只需要查询这两张表,就可以完成参数的估计。很开心吗?虽然过程有点曲折,但结果是美丽的~具体参数的意义可以参考特征来表示一个部分。下一个coding可能需要注意的两点:计算类概率密度p(X|Cj)如果类Cj下没有特征ti,p(ti|Cj)=0.类概率密度的连续乘以也将等于0。数量,如果在某种情况下没有出现样本的特征,则认为其产生的可能性等于零。这个结论太武断了,解决办法是加1平滑:其中,|C|表示样本的类别数据。在计算类概率密度时,小数溢出具有超过计算机可以表示的最小数的可能性。为了避免小数溢出的问题,类概率密度的计算通常被转换为对数累和的形式。另外,如果计算p(ti|Cj)时间太小,取对数后会得到负无限值,需要对p(ti|Cj)截断处理:当小于某个阈值(如1E-6)时,用该阈值代替。另外,如果计算p(ti|Cj)时间太小,取对数后会得到负无限值,需要对p(ti|Cj)截断处理:当小于一个阈值(如1E-6)时,用该阈值代替。算法预测本节将结合前三节给出算法的具体计算预测过程。为了简化这个问题,我们假设字典是:[拉面,七天,牛肉,博物馆],只有火锅和快餐,两种样品的数量都是8个。以“好利来牛肉拉面馆”为例:对测试样本进行中文分词,判断“牛肉”属于类别词,丢弃类别词“牛肉”前部,提取样本特征词集:[牛肉拉面店]根据字典建立向量空间模型:x=使用NaiveBayes模型分类预测[1,0,1,1]我们给火锅和快餐两种样本的term_category_frequency统计:样本属于快餐的概率是火锅的概率的4倍,预测样本属于快餐的可信度明显高于火锅的概率。该算法随机抽取2000个未校准的POI数据进行评估,该算法有两个评估指标:覆盖率和准确性。算法随机抽取2000个未校准的POI数据进行评估。算法有两个评估指标:覆盖率和准确性。覆盖率是指算法中可预测样本数量在整个测试样本集中的比例。由于采用特征选择后,一些POI名称无法预测,因为它们不包含特征词集,算法评估的覆盖率为84%。算法的准确性是指在整个测试样本集中预测正确样本的比例,算法评估的准确性为91%。#总结机器学习解决问题最关键的一步是找出问题:这个问题能用机器学习算法解决吗?还有其他更简单的方法吗?简单如字符串匹配,使用正则可以简单解决,只是机器学习方法非常麻烦,收益大于损失。如果能学习机器算法,如何表达这个机器学习问题,如何提取特征?也有可能对机器模式(分类、聚类、回归)进行分类)找出问题后,先尝试一些开源机器学习工具,验证算法的有效性。如有必要,自己实现一些机器算法,也可以借鉴一些开源机器学习算法。

内容来源:网络,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

车间管理系统如何选型?有哪些好用的车间管理系统推荐

在市场的激烈竞争下,现代化企业对现代化的管理需求日益增加,制造业已经进入微利时代,国内各规模的制造业也纷纷引入MES制造执行系统,那么车间管理系统如何选型?目前有哪些好用的车间管理系统推荐呢? 车间管理系统选型应该尽量注意看系统是否满足以下…查看详情

windows10和xp哪个好

  作为两代操作系统的代表,Windows10(简称Win10)和Windows XP(简称XP)各有自己的特点和优点,下面将从界面、安全性、兼容性、性能和用户体验等方面进行比较。  一、界面方面  Windows 10的桌面风格比XP…查看详情

了解店铺引流推广的4种方法 见效快有结果

现在这个互联网时代,流量为王,有了流量就不愁店铺发展不下去,所以很多店铺都在想办法给自己的店铺引流。但是很多人也在疑惑,为什么店铺要引流呢?其实很简单,引流很简单,引流就是让你的店铺有客户来,来的客户越多,成交量就越高,利润也越高。那么我们…查看详情

压缩视频用什么软件好?值得选用的几款反馈不错软件

视频内容有不同的格式、不同清晰度,而这些都决定了视频的大小,对于视频收藏者、视频应用者来说,过大的视频可以造成储存空间的浪费或是影响视频文件的传输速度,合理的进行视频压缩则可以解决这些困扰。那么,压缩视频用什么软件好呢? 1…查看详情

比较好用方便的财务软件,综合评分S+

财务软件哪个好呢?这个很难讲,就好比如说武侠小说中剑侠客所使用的兵器,很难说哪个更加厉害,应该说都有各自的特点,自己用着哪个方便顺手就是最好,说白了就是最适合的东西就是最好的,选择软件的时候,要看自己需要什么,一般都是通过资金,…查看详情

2021哪些智能考勤系统比较好用?这8款值得参考

目前市场考勤系统五花八门,企业常常为选择什么考勤系统而烦恼万分,省事好用且低成本的考勤软件,2021哪些智能考勤系统比较好用?这8款值得参考。 1.全易通EHR人力资源管理系统 涉及企业组织管理、人员管理、合同管理、考勤管理、薪资管理,招聘…查看详情

盘点当下最流行的财务报表软件

财务部门是一家企业的重要部门,因此财务报表软件是必不可少的。但是市场上财务报表软件很多,因此如何选择适合自己的的财务报表软件一直都是各个企业的难题。接下来小万就从整个财务软件市场的销售情况下,为大家推荐几款尤为突出的财务软件。图片来源于网络…查看详情

万商云集举行CMMI认证启动会

2019年11月28日上午,万商云集在成都总部举行CMMI认证启动会。万商云集董事长王飞及集团高管,成都思培安公司总经理、主任评估师冯云显等共同出席了CMMI认证启动会。2019年是万商云集的客户运营年,提升公司价值,帮助客户运营产生价值,…查看详情

分屏软件有哪些 分屏软件排行榜前十名

现在用到分屏的场景是非常的多的,但是不同的分屏软件的功能也有一定的差别,下面万商云集小编就给大家来详细介绍一下分屏软件有哪些 分屏软件排行榜前十名这方面的内容,希望能帮助到大家。  1.智能分屏  智能分屏app支持将手机屏幕分成多个界面…查看详情

常用CRM系统有哪些?基础报价是多少?

CRM系统是以客户为中心的企业管理工具,有完整的管理流程和管理理念,能够帮助企业实现系统化管理,提升企业效率和竞争力。但是市场价格差距比较大,下文整理了几个常用CRM系统和相关报价,仅供参考。图片来源于网络励销CRM:基于PC端和移动端为中…查看详情

免费的视频播放软件有哪些 视频播放软件排行榜

  现在视频播放器软件特别多,但是很多的视频播放软件都是需要收费的,下面小编就给大家来详细介绍一下免费的视频播放软件有哪些 视频播放软件排行榜这一块的相关内容,希望能帮助到大家。  视频播放软件排行榜  1,MPC-BE  现在的播放多…查看详情

有财务管理软件再引入ERP软件,会不会冲突

众所周知,ERP软件纳入了财务管理功能,企业引入ERP软件就能实现财务、销售、采购一体化管理。但对很多企业来说,已经拥有了使用习惯的财务管理软件,再引入ERP软件时,针对财务管理模块就产生了软件功能重复,该怎么解决呢?彻底更换,一键导出数据…查看详情

电子合同正当时,阿里巴巴、华为等名企纷纷加入应用行列!

电子合同正在普及,正逐渐成为市场刚需和潮流。《中华人民共和国电子签名法》第十四条规定:可靠的电子签名与手写签名或盖章具有同等的法律效力。这部法律开启了数字化合同时代。目前,阿里巴巴、华为、途牛、华夏银行、吉利汽车等企业都已部署了电子合同来提…查看详情

笔记本显存容量是什么意思

笔记本显存可以扩大吗?看图是笔记本电脑。笔记本电脑一般有2个内存插槽,出厂时通常会用掉1个。所以笔记本电脑是可以扩内存的。具体有以下方法可选:1、加内存条到剩余的内存插槽;2、用更大容量的内存条替换原有内存条;注意:1、以上操作都需要拆笔记…查看详情

商标出售选择哪个平台呢?这几个平台比较靠谱

想要出售商标或者是想要购买转让的商标,就需要选择一个可靠的平台才行,这样才可以让商标的出售有保障,同时也能够让商标出售的时候有更多的选择,那么商标出售选择哪个平台呢?这几个平台比较可靠,下面就一起来看看吧。1、万商云集该平台属于一家闭环服务…查看详情

最新文章