服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

如何构建用户画像的数据建模?

2021-01-08 09:14:40 阅读(216 评论(0)

1991年,TimBerners-Lee发明了万维网(WorldWideWeb)20年后的2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、经过13两年的热炒,人们逐渐冷静下来,更加*如何利用大数据挖掘潜在的商业价值,如何在企业中真正应用大数据技术。随着大数据应用的讨论和创新,个性化技术已成为一个重要的着陆点。与传统的线下会员管理、问卷调查、购物篮分析相比,大数据首次使企业能够通过互联网获得更广泛的反馈信息,为进一步准确、快速地分析用户行为习惯、消费习惯等重要业务信息提供了足够的数据基础。随着对人的理解逐渐加深,一个概念悄然而生:用户肖像(UserProfile),用户信息全貌的完美抽象可以看作是企业应用大数据的基础。一、用户画像是什么?男,31岁,已婚,收入1万多,爱美食,团购达人,喜欢红酒配香烟。这样一系列的描述就是用户肖像的典型案例。假如用一句话来描述,那就是:用户信息标签化。如果你用一张图片来展示它,也就是说,为什么用户肖像需要用户肖像的核心工作是为用户标记。标记的一个重要目的是让人们理解并方便计算机处理。例如,你可以做分类统计:有多少用户喜欢红酒?在喜欢红酒的人中,男女比例是多少?也可以做数据挖掘:根据相关规则,喜欢红酒的人通常喜欢什么运动品牌?采用聚类算法分析,喜欢红酒的人的年龄分布情况?大数据处理离不开计算机的操作。标签提供了一种方便的方法,使计算机能够程序化地处理与人相关的信息,甚至通过算法和模型“理解”人。当计算机具备这种能力时,搜索引擎、推荐引擎、广告等应用领域将能够进一步提高准确性和信息获取效率。3、如何构建用户肖像标签通常是一个高度精细的特征标签,如年龄标签:25~35岁,区域标签:北京,标签呈现两个重要特征:语义,人们可以很容易地理解每个标签的含义。这也使得用户肖像模型具有实际意义。能更好地满足业务需求。例如,判断用户偏好。在短文本中,每个标签通常只表示一个含义,标签本身不需要做太多的文本分析和其他预处理工作,这为使用机器提取标准化信息提供了便利。人们制定标签规则,并能通过标签快速读取信息,方便机器进行标签提取和聚合分析。因此,用户肖像,即:用户标签,向我们展示了一种简单、简单的方法来描述用户信息。3.1数据源分析构建用户肖像是为了恢复用户信息,所以数据来源于所有用户相关的数据。对于用户相关数据的分类,引入一个重要的分类思路:封闭式分类。例如,世界上有两种人,一种是学习英语的人,另一种是不学习英语的人;客户分为三类:高价值客户、中价值客户和低价值客户;产品生命周期分为投资期、成长期、成熟期和衰退期。。。所有子类别将构成类别空间的全部集合。这种分类方法有助于不断列举和迭代遗漏的信息维度。不要担心每层分类的结构不完整,导致维度遗漏,留下扩展隐患。此外,根据应用场景和不同的业务需求,不同的分类方法可能是合理的,可以根据需要进行划分。本文将用户数据分为静态信息数据和动态信息数据两类。如图所示,静态信息数据用户相对稳定的信息,主要包括人口属性、商业属性等数据。这种信息是自己的标签。如果企业有真实信息,就不需要过多的建模预测,更多的是数据清理。因此,本文的重点不是这方面信息的数据建模。动态信息数据用户不断变化的行为信息,如果有上帝,每个人的行为总是被上帝看不见的眼睛监控,广义上,用户打开网页,买杯子;用户晚上溜狗,白天拿钱,打哈欠等等。当行为集中在互联网甚至电子商务上时,用户的行为会更加集中,如上图所示:浏览凡客主页、浏览休闲鞋单页、搜索帆布鞋、发布关于鞋质的微博、赞扬“双十一促销”的微博新闻。等等可以看作是互联网用户的行为。本文以互联网电子商务用户为主要分析对象,暂时不考虑线下用户行为数据(分析方法相同,但数据获取方法不同,用户识别方法不同)。在互联网上,用户行为可以被视为用户动态信息的唯一数据来源。本文将重点介绍如何构建用户行为数据模型,分析用户标签。3.2分析用户肖像的目标是通过分析用户的行为,最终给每个用户贴上标签和标签的权重。如,红酒0.8、李宁0.6。标签表示内容,用户对内容感兴趣、偏好、需求等。权重,表示指数,用户的兴趣,偏好指数,也可以表示用户的需求,可以简单地理解为可信度、概率。以下内容将详细介绍3.3数据建模方法,如何根据用户行为构建模型输出标签和权重。事件模型包括三个要素:时间、地点和人物。每一次用户行为本质上都是一个随机事件,可以详细描述为:什么用户,什么时候,什么地方,做了什么。用户:关键在于用户标识,用户标识的目的是区分用户,单点定位。以上列出了互联网用户识别的主要方法,获取方法由易到难。根据企业的用户粘性,可以获得不同的标识信息。时间:时间包括两个重要信息,时间戳 时间长度。时间戳,为了识别用户行为的时间点,如1395121950(精度至秒)、1395121950.083612(精度至微秒),通常使用精度至秒的时间戳。因为微秒的时间戳精度不可靠。浏览器的时间精度只能达到毫秒。时间长度,以识别用户在某个页面上的停留时间。用户接触点在哪里,TouchPoint。对于每个用户接触点。潜在信息包含两层:网站 内容。网站:每个url链接(页面/屏幕),即定位互联网页面地址或产品的特定页面。它可以是PC上电子商务网站的页面url,也可以是手机上的微博、微信等功能页面和产品应用的特定图片。比如长城红酒单品页、微信订阅号页、游戏通关页。内容:每个url网站(页面/屏幕)中的内容。相关信息:类别、品牌、描述、属性、网站信息等。比如红酒,长城,干红,网站决定每个互联网接触点的权重;内容决定标签。注:接触点可以是网站,也可以是产品的特定功能界面。比如同一瓶矿泉水,超市卖1元,火车卖3元,景区卖5元。商品的销售价值不在于成本,而在于销售地点。标签是矿泉水,但不同的接触点反映了权重差异。这里的权重可以理解为用户对矿泉水的需求不同。也就是说,愿意支付的价值是不同的。如果标签权重矿泉水1//超市矿泉水3///火车矿泉水5///景区相似,用户在JD.COM商城浏览红酒信息,不同于在品尚红酒网浏览红酒信息,表现出对红酒的偏好。这里的重点是不同的网站,权重不同,权重模型的构建需要根据各自的业务需要来构建。因此,网站本身表示用户的标签偏好权重。该网站对应的内容反映了标签信息。什么:用户行为类型,电子商务有以下典型行为:浏览、添加购物车、搜索、评论、购买、点击表扬、收藏等。不同的行为类型对接触点内容产生的标签信息有不同的权重。例如,购买权重计为5,浏览计为1///浏览红酒5///购买红酒。综合以上分析,用户肖像的数据模型可概括为以下公式:用户标识 时间 行为类型 接触点(网站 内容),用户在什么时候,地点,做了什么。所以会贴上**标签。用户标签的权重可能会随着时间的增加而衰减,因此将时间定义为衰减因子r。行为类型和网站决定权重,内容决定标签,并进一步转换为公式:标签权重=衰减因子×行为权重×网站权重如:用户A,昨日在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。标签:红酒,长城时间:因为是昨天的行为,假设衰减因素是:r=0.95行为类型:浏览行为记为权重1:品尚红酒单品页网站权重记为0.9(与JD.COM红酒单品页0.7相比)。假设用户真的很喜欢红酒,他们会去专业的红酒网购买,而不是在综合商场购买。用户偏好的标签是:红酒,权重为0.95*0.7*1=0.65,即用户A:红酒0.665、长城0.665。以上模型权重值的选择仅供参考。具体权重值需要根据业务需要进行二次建模。这里强调的是如何从整体上构建用户肖像模型,然后逐步细化模型。4、总结:本文不涉及具体算法。它更多地阐述了一种分析思想。在计划构建用户肖像时,它可以为您提供系统和框架的思维指导。其核心在于对用户接触点的理解,直接决定了标签信息。内容地址、行为类型和时间衰减决定了权重模型是关键,权重值本身的二次建模自然是先进的。例如,模型侧重于电子商务,但事实上,接触点可以根据不同的产品重新定义。比如我看了一部电影《英雄本色》,可能的标签是:周润发0.6、枪战0.5、港台0.3。最后,接触点本身不一定有内容,也可以概括为一个阈值,一个行为超过多少次,达到多久等等。比如游戏产品,典型的接触点可能是关键任务、关键指数(分数)等。如果积分超过10000分,则标记为钻石用户。钻石用户1.0。百分点已全面应用于推荐引擎中的用户肖像技术。在电子商务客户和活动页面新访客的应用中,与热门榜单相比,推荐效果显著提高:推荐栏点击率提高27%,订单转化率提高34%。

内容来源:数据分析网,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

免费连wifi的软件有哪些 免费连wifi的软件排行榜

  现在市面上有很多的免费连wifi的软件,而且现在大家外出的时候都会用到wifi,下面*就给大家来i详细介绍一下免费连wifi的软件有哪些 免费连wifi的软件排行榜这一块的相关内容,希望能帮助到大家。  免费连wifi的软件排行榜 …查看详情

受邀参加诚信企业家大会, 万商云集股份荣获“中国诚信经营与服务示范单位”称号

4月28日,由中国管理科学研究院企业管理创新研究所、中国市场学会信用工作委员会、中国市场学会创新与品牌委员会、中国管理科学研究院诚信评价研究中心四家机构联合主办的第十五届中国诚信企业家大会在北京会议中心盛大开幕,万商云集(成都)科技股份有限…查看详情

可信网站认证有用吗?是噱头还是真的重要!

在“互联网+”这样的革命时代,人们生活在当下在这股不可抗拒的潮流之中。人们在享受互联网带来的方便高效之余,网络骗术的“应运而生”为“真相”蒙上了面纱,网络骗子层出不穷,网络*手段千变万化,身边的受害者越来越多,虽不致人人自危的地步,但用户对…查看详情

桌面日程安排软件介绍,让电脑桌面有条不紊

现在的工作和生活中,很多地方都需要使用到软件,而电脑和手机中所使用的各种应用较多的话,难免就会感觉桌面很乱,很难快速的找到自己想要的软件,那么不妨通过使用一款桌面日程安排软件,这样不仅能够让平时的生活头条不紊,还具有搜索的功能,…查看详情

公司注册资金多少有什么区别

  公司注册资金是公司在成立时投入的资金,用于公司的运营和发展。根据不同国家和地区的法规和规定,公司注册时需要满足一定的注册资金要求,而不同的注册资金额度也会影响公司的运营和发展。  在中国,公司注册资金一般是指的公司注册时需要缴纳的最低资…查看详情

笔画输入法通配怎么用

笔画输入法是一种中文输入方法,它通过根据汉字的笔画顺序来快速输入文字。用户只需要根据每个汉字的基本笔画数目,依次输入相应的笔画,系统就能够智能匹配出对应的汉字。使用笔画输入法的步骤如下:1. 打开输入法软件:在电脑或移动设备上,选择一个支持…查看详情

微信小程序免费模板要怎么选?

随着小程序的爆火,很多企业都把目光都投放在了小程序的开发上。因为他们知道微信小程序这波福利有多大,所以都想去占领。但是随着微信小程序的制作开发,很多商家都面临到来技术的难题。因此微信小程序免费模板应运而生,既为企业省去了金钱的烦恼,也为企业…查看详情

好用的安卓模拟器推荐,手游党的福音

模拟器应该是手游爱好者在PC端所产生的一款电脑软件,在这款软件当中,我们可以在PC端进行我们所喜欢的手游,或者是在模拟器上对手机进行操控,那么今天我们就来盘点一下畅玩安卓模拟器都有哪些。 1、雷电模拟器 这款模拟器是免费的…查看详情

山东地税网上申报平台怎么操作

菏泽的地税网上申报怎么申报?1、首先可以打开税务局网上办税服务厅这个界面。 2、在登录的地方输入税号,并用注册的手机收验证码。有CA证书的比较方便,直接插入CA证书登录。 3、在外区有经营业务的,这时要进行选择是报哪个一区的税。 4、…查看详情

复盘常用的记事本软件都有哪些?

复盘是最有效的自我学习方式,也是一个不断校正路线的过程,更是集体学习的最高效方式之一,复盘常用的记事本软件都有哪些?一起来看看。 1.notes 这款记事本app不论是在GooglePlay还是在国内的酷安,都有着4.7的高评分,外观设计简…查看详情

2023年申请注册公司的流程

  注册公司是有一定复杂性的工作,需要了解整个流程及细节。以下是我总结的注册公司的详细流程。  一、确定公司名称  公司名称要遵循三个原则:有意义、不与其他公司重名、无敏感词。需要在国家企业信用信息公示系统中进行查询,以确保公司名称没有重复…查看详情

2023十大最好玩的仙侠手游

  优质答案(1)  1、《剑踪情缘》  《剑踪情缘》这款游戏中有许多人物角色玩家可以在开局前自由的选择,体验修仙的快乐时光,而且游戏中的么一个人物都有属于自己的法器,玩家在游戏中有着多种故事结局可以自由的发挥,还可以触发奇遇结契灵宠陪伴自…查看详情

新手开淘宝虚拟网店怎么开?

  优质答案(1)  1、使用手机号注册淘宝小镇账号,注册成功后,用账号登陆  2、填写认证资料,依次为真实姓名、身份证号、淘宝ID(掌柜名)、联系地址。淘宝ID为淘宝账号,联系地址填写自己的店铺链接。  3、等待淘宝ID校验,等待期间可以…查看详情

好用的安卓手机主题软件 2022免费的安卓手机主题软件

  提起诺基亚,相信是很多人的青春回忆。在塞班和安卓的抉择上,诺基亚选择了前者。后来的事情大家也都知道了,即使是被微软收购、搭载WP(Windows Phone)系统,诺基亚也无法挽回下滑的颓势,一代传奇就此落幕。现在很多的用户都在使用安卓…查看详情

钻戒品牌排行榜前十名 知名的钻戒品牌有哪些

  在大家眼中钻戒都是非常珍贵的物品,而且钻戒也代表着浪漫,下面几个是目前社交网络上讨论较多的国际钻石婚戒品牌:下面*就带大家来看一下钻戒品牌排行榜前十名 知名的钻戒品牌有哪些这一块的相关内容。.  钻戒品牌排行榜前十名  卡地亚Car…查看详情

最新文章