怎样用机器学习方式对网站进行数据挖掘?
2020-12-30 13:38:26 阅读(199) 评论(0)
随着大数据时代的到来,机器学习已经成为解决问题的重要而关键的工具。机器学习是工业界和学术界的热门方向,但学术界和工业界专注于机器学习的研究,学术界专注于机器学习理论的研究,工业界专注于如何利用机器学习来解决实际问题。结合美团在机器学习方面的实践,我们进行了实战(InAction)系列介绍(带有“机器学习Inaction系列”标签的文章),介绍解决工业问题所需的基本技术、经验和技能。本文主要介绍了机器学习解决实际问题的整个过程,包括问题建模、准备培训数据、提取特征、培训模型和优化模型;其他文章将更深入地介绍这些关键环节。以下分为1)机器学习概述,2)问题建模,3)准备培训数据,4)选择特征,5)培训模型,6)优化模型,7)总结7章。机器学习概述:###机器学习是什么?随着机器学习在实际工业领域的不断应用,这个词已经被赋予了各种不同的含义。本文中“机器学习”的含义更符合wikipedia上的解释,如下:Machinelearningisascientificdisciplinethatdealswiththeconstructionandstudyofalgorithmsthatcanlearnfromdata.机器学习可分为无监督学习(unsupervisedlearning)监督学习(supervisedlearning),在工业界,监督学习是一种更常见、更有价值的方式,主要以这种方式介绍。如下图所示,在解决实际问题时,有两个过程需要监督机器学习。一个是离线培训过程(蓝色箭头),包括数据筛选和清洁、特征提取、模型培训和模型优化;另一个过程是应用过程(绿色箭头),用于估计需要估计的数据,提取特征,并使用离线培训获得的模型进行估计,以便在实际产品中获得估计值。在这两个过程中,离线培训是最具技术挑战性的工作(*估计过程中的许多工作可以重用离线培训过程),因此下面主要介绍离线培训过程。在这两个过程中,离线培训是最具技术挑战性的工作(许多*估计过程可以重复使用离线培训过程),因此以下主要介绍离线培训过程。###什么是模型?(model)?模型是机器学习中的一个重要概念。简单地说,它是指从特征空间到输出空间的映射;它通常由模型的假设函数和参数w组成(以下公式是Logisticregression模型的表达,并在训练模型的章节中详细解释);假设空间的模型(hypothesisspace),指所有可能w对应的输出空间组成的给定模型的集合。Logisticregresion(简称LR)是工业界常用的模型、GradientBoostingDecisionTree(GBDT)、SupportVectorMachine(SVM)、DeepNeuralNetwork(简称DNN)等。模型训练是基于训练数据获得一组参数w,使特定目标最优化,即获得从特征空间到输出空间的最优映射。如何实现,请参见训练模型章节。模型训练是基于训练数据获得一组参数w,使特定目标最优化,即获得从特征空间到输出空间的最优映射。如何实现,请参见培训模型章节。###为什么要用机器学习来解决这个问题?目前,在大数据时代,到处都有T到P数据,简单的规则处理难以发挥这些数据的价值;廉价的高性能计算降低了基于大规模数据的学习时间和成本;廉价的大规模存储可以更快、更低的成本处理大规模数据;有很多高价值的问题,可以花很多精力用机器学习来解决问题。###什么问题应该用于机器学习?目标问题需要巨大的价值,因为解决机器学习问题有一定的成本;目标问题有大量的数据可用,大量的数据可以使机器学习更好地解决问题(相对于简单的规则或劳动力);目标问题由多种因素(特征)决定,机器学习解决问题的优势可以体现出来(相对于简单的规则或人工);由于机器学习可以基于数据自学和迭代,因此需要不断优化目标问题,继续发挥价值。本文以DEAL(团购订单)交易量估算为例(即估计一个给定的DEAL在一段时间内卖了多少钱),介绍如何用机器学习解决问题。本文以DEAL(团购订单)交易量估算为例(即估计给定DEAL在一段时间内销售多少),介绍如何使用机器学习解决问题。首先,我们需要:收集问题信息,理解问题,成为这个问题的专家;解决问题,简化问题,将问题转化为机器可预测的问题。在对DEAL交易量进行深入理解和分析后,可以将其分解为以下几个问题:###单模型?多个模型?如何选择?根据上图拆解后,预测DEAL交易量有两种可能模式,一种是直接预测交易量;另一种是预测用户数量模型和访问率模型(访问DEAL用户将购买的列表数量),然后根据这些子问题的估计值计算交易量。不同的方法有不同的优缺点,具体如下:选择哪种模式?1)如果问题难以预测,则考虑使用多模型;2)如果问题本身的重要性非常重要,则考虑使用多模型;3)如果多模型之间的关系是否清晰,则可以使用多模型。若采用多模型,如何融合?线性融合可以根据问题的特点和要求进行,也可以进行复杂的融合。以本文为例,至少有两种问题:###模型选择DEAL交易量。我们认为直接估计是非常困难的。我们希望估计分裂成子问题,即多模型模型。由于机器学习解决问题的方法相似,因此有必要建立用户数模型和访购率模型。以下仅以访购率模型为例。为了解决采购率问题,我们必须首先选择模型。我们有以下考虑因素:主要考虑因素1)选择与业务目标一致的模型;2)选择与培训数据和特征一致的模型。训练数据少,Highlevel特征多,使用“复杂”非线性模型(流行GBDT)、Randomforest等。;训练数据很多,LowLevel有很多特点,所以使用“简单”的线性模型(流行的LR、Linear-SVM等。).补充考虑1)当前模型是否被工业界广泛使用;2)当前模型是否有成熟的开源工具包(公司内外);3)当前工具包能否满足处理数据量的要求;4)您是否了解当前的模型理论,以及您是否以前使用过该模型来解决问题。为实际问题选择模型,需要转换的业务目标为模型评价目标,转换模型评价目标为模型优化目标;根据不同的业务目标选择合适的模型。具体关系如下:一般来说,真实值(回报)的估计、大小顺序(排序)、根据应用程序的需要,尽可能选择难度较小的目标,目标所在的正确区间(分类)难度从大到小。对于估计访购率的应用目标,我们至少需要知道大小顺序或真实值,所以我们可以选择AreaunderCurve(AUC)或者MeanAbsoluterrororrorle(MAE)以Maximumlikelihood为模型损失函数(即优化目标)作为评估目标。综上所述,我们选择GBDT或LR的spark版本,主要基于以下考虑:1)可以解决排序或回归问题;2)我们实现了算法,经常使用,效果很好;3)支持大量数据;4)广泛应用于工业行业。准备培训数据,深入了解问题。选择相应的问题模型后,需要准备数据;数据是机器学习解决问题的基础。如果数据选择错误,问题就无法解决。因此,在准备培训数据时需要特别小心和注意:###注意事项:待解决问题的数据本身的分布应尽可能一致;培训集/测试集的分布应尽可能与*预测环境的数据分布一致,这里的分布是指(x,y)分布不仅仅是y的分布;y的数据噪声尽可能小,尽量消除y的噪声数据;不需要采样。采样往往会改变实际数据分布,但如果数据太大,无法训练或正负比例严重失衡(如超过100:1)需要采样解决。###需要解决的常见问题和解决方案的数据分布不一致:1)DEAL数据在采购率问题上可能存在很大差异,如食品DEAL和酒店DEAL的影响因素或性能非常不一致,需要特殊处理;要么提前整合数据,要么以分布不一致因素为特征,要么单独培训各类DEAL模型。数据分布发生了变化:1)用半年前的数据培训模型来预测当前的数据,因为数据分布可能随时间而变化,效果可能很差。数据分布发生了变化:1)使用半年前的数据培训模型来预测当前的数据,因为数据分布可能会随着时间的推移而变化,效果可能会很差。试着使用最近的数据培训来预测当前的数据,历史数据可以减少模型的权利,也可以减少模型。y数据有噪音:1)建立CTR模型时,以用户看不到的Item为负例。这些Item没有点击,因为用户看不到。不一定是用户不喜欢,也不一定是点击,所以这些Item有噪音。一些简单的规则可以用来消除这些噪音负例,比如使用skip-above思想,即用户点击的Item以上,未点击的Item作为负例(假设用户从上到下浏览Item)。采样方法有偏见,不覆盖整个集合:1)在采购率问题上,如果只有一家门店的DEAL进行估计,则无法很好地估计多家门店的DEAL。我们应该确保一个商店和多个商店都有DEAL数据;2)如果没有客观数据的第二类问题,则使用规则获得正/负示例,并且规则对正/负示例的覆盖范围不全面。抽样数据应随机进行人工标记,以确保抽样数据与实际数据分布一致。###DEAL数据收集N个月的培训数据(x)以及相应的采购率(y);收集最近N个月,消除节假日等非常规时间(保持一致的分布);*时间只收集>并访问用户数量>U的DEAL(降低y的噪音);考虑DEAL销售生命周期(保持一致分布);考虑不同城市、商业区和类别的差异(保持一致的分布)。完成数据筛选和清洗后,需要对数据进行抽取,即将输入空间转换为特征空间(见下图)。在完成数据筛选和清理后,需要提取数据特征,即完成输入空间到特征空间的转换(见下图)。对于线性模型或非线性模型,需要提取不同的特征。线性模型需要更多的特征提取工作和技能,而非线性模型需要相对较低的特征提取要求。一般情况下,特征可分为Highlevel和Lowlevel,Highlevel是指含义较广的特征,Lowlevel是指含义较具体的特征,例如: DEALA1属于POIA,人均50以下,访购率高; 属于POIA的DEALA2,人均50以上,访购率高; POIB属于DEALB1,人均50以下,访购率高; DEALB2属于POIB,人均50以上,访购率底部;基于上述数据,可抽取两个特征,POI(店)或人均消费;POI特征是LowLevel特征,人均消费是Highlevel的特征;假设该模型通过学习获得以下估计:如果DEALx属于POIA(LowLevelfeature),如果DEALx人均50以下,购买率高;(HighLevelfeature),访购率高。因此,总的来说,LowLevel更有针对性,单个特征覆盖面小(含此特征的数据不多),特征数量(维度)大。因此,总的来说,Lowlevel更有针对性,单个特征覆盖范围小(包含此特征的数据不多),特征数量(维度)大。Highlevel泛化,单个特征覆盖范围大(包含此特征的数据多),特征数量(维度)小。Highlevel特征主要影响长尾样本的预测值。LowLevel特征主要影响高频样本的预测值。对于采购率问题,Highlevel或Lowlevel有大量的特征,其中一些显示在下图中:非线性模型的特征1)Highlevel特征可以主要使用,因为计算复杂,因此特征维度不应过高;2)Highlevel非线性映射可以更好地拟合目标。线性模型的特征1)特征系统应尽可能全面,HighLevel和LowLevel都应具备;2)HighLevel可以转换为LowLevel,以提高模型的拟合能力。###抽取特征归一化特征后,如果不同特征的取值范围相差很大,最好将特征归一化,以取得更好的效果,常用的归一化方法如下:Rescaling:以类似的方式将其归一化为[0,1]或[-1,1]:Standardization:设为x分布的平均值,x分布标准差;Scalingtounitlength:归一化到单位长度向量####特征选择特征选择和归一化后,如果发现特征太多,模型无法训练,或者模型容易过度拟合,则需要选择特征并选择有价值的特征。Filter:假设特征子集对模型估计的影响是独立的,选择特征子集来分析子集与数据Label之间的关系。如果有正相关性,则认为特征子集是有效的。Filter:假设特征子集对模型估计的影响是独立的,选择一个特征子集来分析子集和数据Label之间的关系。如果存在正相关关系,则认为该特征子集是有效的。有许多算法来衡量特征子集和数据Label之间的关系,例如Chi-square,InformationGain。Wrapper:选择特征子集加入原特征集,用模型训练,比较子集加入前后的效果。如果效果更好,则认为特征子集有效,否则认为无效。Embedded:将特征选择与模型训练相结合,如在损失函数中添加L1Norm、L2Norm。
推荐阅读
- win10正版多少钱一套
Win10正版的收费标准 Win10正版的收费标准是由微软公司制定的,目前在中国大陆地区的官方售价为998元/套,也就是说,用户需要花费近千元的价格才可以购买到一套正版的Win10系统。 此价格只是针对个人用户而言,对于企业用户和教…查看详情
- 浴霸十大品牌
1、阿特美家-浴霸十大品牌之一 阿特美家作为国内浴霸的知名品牌之一,其产品在市场上一直都有着较高的口碑和知名度。其产品主要集中在智能浴霸、豪华浴霸、中档浴霸、低档浴霸等多个档次,可以满足不同消费者的需求。阿特美家的产品主要以一体成型、…查看详情
- 4款操作简单不用去电脑店,自己也能重装电脑系统软件
不管是笔记本电脑还是台式电脑,我们都必须要进行装机,才可以确保电脑的流畅度,一旦出现不流畅的情况,不管是打游戏还是看电视都会影响心情,因此,一键装系统的软件有哪些? 1、360系统重装大师 是一款*重装的专用工具,采用好的安…查看详情
- 微博怎么发文章 微博发文章技巧
微博是基于用户关系的社交媒体平台,用户可以通过PC、手机等多种移动终端接入,以文字、图片、视频等多媒体形式,实现信息的即时分享、传播互动。绝大多数人玩微博的目的就是为了更好地阅读资讯,得到自身感兴趣的一些信息内容。为了时时刻刻关注自己的…查看详情
- 了解商标注册受理事项,如受理周期、通知书下发时间...
商标注册受理,其实就是指提交商标注册申请和资料后,由相关人员进行初步审核后,确定是否此商标注册申请。简单来说,商标注册受理就是告诉你,商标局接受该申请并开始进行审查。 图片来源于网络 商标注册受理事项一:商标注册申请被受理是成功通过吗? 不…查看详情
- 零经验新手怎样做电商
没有经验的新手可不可以做电商呢?怎样做电商可以避免采坑呢? 新手当然可以做电商,电商行业的大佬也从零经验慢慢做到现在的高度的。而且现在新手做电商的环境比以前好了很多,怎样做电商可以避免采坑的问题也能得到解决。有很多前人的电商经营经验可以,很…查看详情
- 安装eclipse的详细步骤
linux环境下怎么安装eclipse?在linux下安装eclipse方法: 一.下载eclipse安装包(.tar.gz)下载地址:http://www.eclipse.org/downloads/建议下载那个forJ2EE的,嘿嘿,…查看详情
- 一款先进的企业管理工具——总管家CRM
总管家CRM,销售管理好帮手!这是一款基于移动互联网模式,适合销售团队和销售员个人使用的客户关系管理软件。系统以客户为中心,具备完善的客户资料管理、订单收款管理、销售业绩督导、客户跟单流程、数据报表分析以及日程任务审批等OA办公功能。总管家…查看详情
- 公司注销后专利属于谁 公司注销后专利归属
在平时很多的小伙伴都不知道公司注销后专利属于谁的基本情况,而且对公司注销后专利属于谁都不是很熟悉,下面万商云集*就为大家整理了公司注销后专利属于谁这方面的相关内容,希望下面的内容能帮助到各位。 一、公司注销后专利归属 除非原…查看详情
- 四款测温软件24小时守护宝宝,1分钟快速测温
现在有很多比较先进的东西,测温这方面设置的也越来越先进,不需要温度计就可以测量温度,对于小宝宝来说是一种*,那么,我们需要提前了解一下测温软件都有什么这个问题。 1、24小时不断监控 24小时不断监控小孩体温,2秒左右收集一…查看详情
- 淘宝网店客服怎么做
网店客服是通过网店的一种服务形式,通过网络,开网店,提供给客户解答和售后等的服务,称为网店客服。网店客服主要是针对网店客服就是阿里软件,提供给淘宝掌柜的在线客户服务系统,旨在让淘宝掌柜更高效的管理网店、及时把握商机消息,从容应对繁忙的生意。…查看详情
- 根据调查数据而总结出的几款好用浏览器
网络的普及,对于浏览器的使用已经有了非常成熟的使用市场,这里根据浏览器使用的调查数据做个总结,毕竟浏览器使用内卷严重了呀。不过优质浏览器还是有共性的:要求简洁干净不附加七七八八的补丁,以下是笔者的一些搜集分析: 1、谷歌 …查看详情
- 网络销售怎么样?网络销售具有什么特点?
随着互联网的发展,网络信息化时代的到来,网购平台现在的发展趋势,已经是我们无法想象的了,网购是指网上进行购物,那么这就联系到了网洛销售。网络销售具有低成本,灵活度高,不会受到时空的限制。那么网络销售怎么样呢??下面*为大家介绍,网络销售都有…查看详情
- 注册商标与未注册商标的区别:外观不同、法律地位不同
大家在商场购买东西的时候,都会看见各种各样的商标,这个商标有的是还在申请中,有的是已经注册完成的。申请中的和已经注册完毕的商标是不同的,下面,小万整理了注册商标与未注册商标的相关知识,为了帮助大家更好的了解商标知识。图片来源于网络 注册商标…查看详情
- 同样是《尼泊尔公约》成员国,美国版权要不要登记?
《尼泊尔公约》主要涉及对作品和作者权利的保护,世界上大多数国家都是该公约的成员国,美国也是成员国之一。该公约的核心就是成员国都应自动保护联盟所属的其它各国中首先出版的作品和和保护其作者是上述其他各国的公民或居民的未出版的作品。在《公约》的保…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00















































注册有好礼



