分享关于知乎数据方面的一些工作
2020-12-03 14:35:30 阅读(158) 评论(0)
【指南】知乎已经四年了。在互联网世界里,知乎已经成为一个无可争议的高质量社区。然而,经过快速发展,如何管理、筛选和呈现这些大量信息(数据)已经成为一个难题。事实上,数据管理本身对任何社区都是一个巨大的挑战。以下是知乎联合创始人在七牛大会上关于知乎数据的演讲,稍作删减。大家好,我是知乎的李申申。第一,我想对主办方说:谢谢!感谢大家搭建这样一个专业的平台,让大家有机会聚在一起认真讨论数据这个话题。说实话,当我收到会议的邀请时,我第一次想到了这句话。正如Danariely所说,知乎也像许多面对大数据的人一样无知「年轻人」其中一个;虽然我们也在做一些与大数据相关的事情,但实际上相对肤浅。我听说今天在座的很多用户都是知乎用户,对知乎感兴趣,所以我会借此机会和大家分享一些关于知乎数据的工作。简单进入正题,先来看看知乎的基本数据。截至2015年7月,知乎社区注册用户2900万,月UV1.1亿,月累计页面浏览量3亿。现在知乎全站已经产生了大约620万个问题和近2000万个答案。用户总回答4、129、244、445字数,是大不列颠百科全书的近100倍,鹿鼎记的2580倍。除上述基本数据外,其他一些数字也在以让我们更快乐的速度发展。自知乎开放注册以来,我们截取了两个数据:1000多个同意的答案和1000多个单词的答案,看看它们的增长情况。可以看出,这两个数据都保持了相对稳定的增长趋势。再来看看这些用户日均获赞的数量。首先,必须注意的是,我们并不完全把这两个指标作为有价值的回答判断标准,但当用户愿意冷静下来,花时间写长文回答时,至少他的态度是认真的,符合知乎倡导的讨论理念。另一方面,知乎上的千赞代表了1000名知乎用户对此答案的认可和接受。除了2月份等过年期间的数据会稍微低一些,其他时候,这个数据的增长率基本保持在10%左右。基于话题的维度,我们随机抽取几个话题,看看最近的用户讨论趋势。这是心理学、互联网、经济和天津爆炸的话题。值得注意的是,当天津爆炸事件席卷了几乎所有的社交和舆论平台,引起爆炸性*时,知乎站其他专业话题的讨论仍在继续。同时,由于天津事件后续讨论中涉及心理学的问题很多,知乎站内心理学话题的热度也略有上升。总的来说,知乎更像是一个广场,各种热门时事讨论似乎都是广场中央的喷泉,吸引了游客和公众的*。与此同时,广场周围还有各种各样的酒吧、咖啡馆和茶馆,城市居民聚集在一起与知己交谈。知乎大V和知乎小白有很多知乎用户有疑问,只有早期用户同意知乎的社区概念,还是只有老用户容易获得认可和*?事实并非如此。让我们来看看下面的数据截图。横轴是时间变化。我们截取了2010年12月20日知乎内测以来2015年6月30日批准前1万的用户,并根据他们的注册时间和批准数量绘制图纸,以及日均批准数量的增长。你可以看到这些点的分布相对分散,这表明增长相对均匀。可见,即使是2015年刚加入知乎的人,也有很大的机会得到*和认可。这也表明,这些新用户也渴望仔细讨论和获得有价值的信息交换,这些用户也同意知乎的社区概念。一般的秘诀是,只要你继续参与讨论,并在你擅长的领域输出信息,你就能得到更多人的认可。如何生产知乎信息,如何流动?在前几张图中,我们已经了解了知乎百花齐放的话题和不断贡献的优质用户。让我们来看看知乎的信息生产模式。为了更加*这个问题,我们选择了最近的天津爆炸事件作为例子。从发展模式来看,热点话题与其他话题没有什么不同。但由于其新闻性,这类话题的发展更具爆发性,用户的行为更加集中。因此,我们做这样的展示也更方便。首先,一群用户*和回答问题,产生基本的高质量内容。然后,其他用户的自发邀请、*、收集、感谢、投票、评论等社会行为,使这些内容得到更广泛的传播和*,覆盖范围不断扩大。在知乎,社会行为催生了高质量内容的生产和传播,高质量内容引发了下一轮新的社会行为。用户兴趣识别如何使用大数据?用户在知乎的行为是多维的;它不仅包括相对较轻的浏览和阅读,还包括更重的认可和反对,以及更重的问答(这里的重量和轻量是根据用户的运营成本来定义的)。我们可以根据这些行为分析用户的特点,这也是每个互联网服务都会做的日常工作。只有根据不同的服务特点,我们才能分析不同的特点、算法和效果。除了大量的用户行为数据外,知乎还有大量的文本信息。基于行为和文本,我们可以更准确地识别用户的兴趣和擅长。在现实社会中,我们对某些领域的知识有着深刻的掌握,但其他领域可能不是。个人精力有限,没有人能全知成为各个领域的专家,这种情况可以映射到知乎上。不同的用户在不同的话题领域有不同的专业精神。我们需要掌握这种差异,为每个人计算每个话题下的权重。计算分数的主要依据是你在知乎上的回答。当然,我们也会添加一些其他的考虑因素,包括其他专业人士的认可、你的专业背景等。这是知乎非常基础的数据设施,但这个数值计算的量级并不小(百万回答用户10万个话题,是1000亿级别的数量计算)。知乎每周都会全量计算权重判断,一直在调整优化中。答案排序:如何更好地呈现?优化答案排序算法的目的是让好的答案更高。随着用户数量的不断增加,早期最简单的答案排名规则出现了问题:一些答案得到了更多的友好认可,使得专业性不足的答案被推到了最高的位置。我们想到了加权赞同票的方法,根据主题下每个人的专业权重来计算,排名优化,可以让大多数高质量的答案排在前面。虽然权重计算的优化仍在继续,但我们在算法上仍然遇到了一些瓶颈。当问题下有多个早期答案获得高票时,即使新答案的质量很高,也很难在问题页面上获得足够的曝光,很难积累更多的同意票,一些误导性、煽动性的高票内容,即使有很多反对票,仍然在严肃、严格但相对较少的高质量答案之前。在专业领域,这些问题对参与讨论的用户造成了特别明显的伤害。这绝不是我们想看到的。因此,我们设计了新的排序算法。新排序算法的想法是,如果向许多人展示一个答案并让他们投票,不同内容质量的答案将得到不同比例的批准和反对,最终得到反映内容质量的分数。当投票人较少时,答案的质量分数可以根据获得的票数进行估计。投票人越多,估计结果就越接近真正的分数。如果新答案得到1票认可0票反对,也就是说100%参与投票的用户选择认可,但是因为数量太少,分数不会太高。如果这个答案在一段时间内得到20次批准和1次反对,那么基于新算法,我们有信心把它放在另一个50次批准和20次反对的答案之前。原因是我们预测,当这个答案也得到50次同意时,反对数应该小于20次。威尔逊得分算法最好的特点是,即使我们错了前一步,现在新答案在前面,得到更多的显示,在得到更多的投票后,算法将修改自己,更准确地计算得分基于更多的投票数据,这样排名最终可以真正反映内容的质量。我们的新算法在年初发布后,得到了知乎站用户的热烈反馈,这也是制作知乎产品的好处。出现了许多专业的讨论,为我们的下一个优化提供了良好的想法。主页自我修养:内容个性化推荐主页内容将主要考虑这些方面:知乎主页有一套特殊的数据收集和处理机制,可以记录用户在主页上的所有重要行动,例如,如果用户浏览器窗口或手机屏幕上的内容,将记录一次。还有...知乎还有一些其他的数据优化,我举几个简单介绍的例子。1.邀请稍熟悉知乎的用户知道“谢谢”这个词。该产品的功能是为每个问题找到合适的答案并向用户推荐。我们采用算法模型来预测用户回答问题的可能性和质量。90%的邀请是通过这个推荐结果发出的,剩下的10%%每周由用户主动搜索生成的知乎精选邮件(eDM)通过不断的算法优化,我们对每个用户进行了个性化的计算,实现了30%的开启率和14%的点击率。2.众所周知,问题聚类想要聚类问题的文本。首先想到的是通过文本语义匹配和复杂的词袋模型(如传统的plsa)。LDA,新word2vec等)对问题文本进行向量化,使相关问题通过语义进行聚类。知乎站拥有庞大的用户浏览数据。如果通过简单的算法(如协同过滤)建立这些浏览数据,也可以取得很好的效果。知乎每天的问答浏览量可以达到1000万级,这意味着输入算法的useritem边数每天可以达到1000万以上,近三个月的浏览数据可以达到10亿边。在知乎的数据平台上建立模型需要近一个小时。从聚类结果可以看出,即使不使用任何与文本相关的分析,也可以通过用户浏览的行为分析很好地聚类问题。这也证实了基于大数据的简单算法比基于小数据的复杂算法更有效。
推荐阅读
- 专利申请时间有什么要求 专利申请时间有哪些要求
专利申请时间是在专利申请中一个比较常见的问题,但是很多人都弄不明白这个问题,下面万商云集*就为大家详细解答一下这个问题。 一、专利申请时间有什么要求专利申请时间有哪些要求 不同类型的专利申请,其主动修改时机不同,根据《专利法实施…查看详情
- 开电商平台具备哪些条件
电商平台是指通过互联网实现交易、支付、配送等服务的在线购物平台。一直以来,电商平台都是一个热门话题,在巨大的市场需求下,电商平台也无疑日益成为主流的商业模式之一。但要想开通一个成功的电商平台,需要具备以下条件: 一、市场需求 市场需…查看详情
- 开网店怎么办营业执照?流程及注意事项一览
网上店铺只是经营者在网络上的经营方式,与实体店并无二至,门槛低,备受中小企业的青睐,所以也需要办理营业执照,开网店怎么办营业执照?本文整理了一套流程及注意事项供大家参考。 开网店办营业执照的大致流程: 对于网店的营业执照分为两种形式办理途径…查看详情
- 同比和环比是什么意思
同比和环比是两种常见的比较分析方式,它们通常被应用于市场研究、财务分析、经济分析等领域。在了解同比和环比的具体含义之前,我们先来看一下它们的定义: 同比比较,是指比较两个相同时期内的指标数据,如比较去年同期和今年同期的数据情况,用于分…查看详情
- 使尽浑身解数,为何徐福记、银鹭仍不见增长
8年前,雀巢收购了徐福记、银鹭两家食品公司;但近日却有消息透露,雀巢欲再出售两家公司的控股权。不禁让人唏嘘:买了又卖,徐福记、银鹭两大食品品牌竟成了被踢的“皮球”。究其背后原因,雀巢收购徐福记、银鹭后,分别对其产品和营销方式都进行了创新,但…查看详情
- 服务器反应慢及解决办法
很多的朋友都在反映自己的服务器使用久了变得越来越卡顿,速度越来越慢,其实这是一种正常现象,下面万商云集*给大家来详细介绍一下服务器反应慢及解决办法,希望能帮助到大家解决这个问题。 服务器反应慢及解决办法 1.虚拟主机占用资源过大,需…查看详情
- 开发小程序费用多少呢
开发一款小程序需要多少费用? 小程序开发是肯定要收费的,开发的费用主要包含以下4个部分 1、认证服务费300元,如果不需要使用微信支付等需要认证才能实现的功能,此项可以不认证,及免收费。如果你有已经通过微信认证的公众号,那可以通过公…查看详情
- 线上办公软件有哪些 常用办公软件推荐
最近两年受疫情影响,越来越多的企业选择在线上进行办公。办公软件是线上办公很重要的一部分,线上考勤打卡、分配任务、审批财务报告等。所以我给大家盘点了6款好用的办公软件,有需要的小伙伴可以看看哦~ 1.智办公 它是一款功能强大…查看详情
- app制作一个需要多少钱
开发一款APP需要多少成本?1.APP开发的费用主要还是根据您具体的需求来的,有便宜的,也有贵的; 2.比如要做游戏APP,预算起码400万左右嘛; 3.当然了,如果只是想找那种成品APP,一般一套源码加部署下来也就10万左右吧! 4…查看详情
- andon电子看板系统把控好企业的产品质量
在企业生产的过程中怎么都会出现产品的质量问题,企业的需求就是让生产出的每个产品都质量过关,但是以前传统的产品质量管控方式并不能及时发现问题,随着技术的发展,可以通过软件来实现对现场质量的高效率管控,andon就是这样一款质量管控工具。and…查看详情
- 互联网视频软件,哪几款软件的排名比较靠前?
随着互联网*内容的不断丰富,人们对于有影像有声音的视频观看需求越来越高,各类视频网站在激烈的平台竞争中不断优化自我,一些优质网站更是形成了客户黏着性,拥有大量的“拥趸”级用户。在互联网视频软件排行榜上,哪几款软件的排名比较靠前呢…查看详情
- 来看看哪些地方哪些人喜欢点外卖
现在只要我们走在大街上,随处可见穿着美团、饿了么等工作服的外卖小哥,他们每天忙碌的穿梭在大街小巷,为外卖消费客户送上心仪的美食,这里我们为外卖小哥点个赞吧,不论刮风下雨、不论时间早晚都奔跑在路上为我们送外卖。从大街小巷中的外卖小哥我们可以看…查看详情
- 免费读小说软件哪个好用?这几款软件就比较不错
很多人在空闲的时候都喜欢读小说,其实现在读小说的软件也是非常多的,每一款软件带来的效果也是不同的,有些阅读小说的软件需要收费当看到特别精彩的地方是突然要收费,也是很多人都不能理解的。所以说这个时候大部分的朋友们都想要找到免费读小…查看详情
- 想要实现网络运营效果最大化,旧实业要有新策划
网络运营策划是很多中小传统实业*,但又不擅长的话题,想要尝试向电商企业,却把自己困在了进退两难的局面。造成尴尬境地的主要原因还是在于传统实业与纯电商企业在经营模式、产品和服务等方面存在差异。所以,传统实业并不能直接借鉴电商的网络运营策划,想…查看详情
- 申请资料填写 | 知识产权情况怎么写
当大家在申报知识产权时,由于并非相关专业的人员,所以在资料填写过程中很容易遇到不知如何填写的资料。今天,小万将为大家讲解关于“知识产权情况怎么写”的问题,一起接着往下看。图片来源于网络 知识产权情况怎么写?知识产权情况说明中的内容一般为:商…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
邮箱:zjb@iwanshang.com
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的AI增效平台

400-0033-166
8:30-18:00















































注册有好礼



