分享关于知乎数据方面的一些工作
2020-12-03 14:35:30 阅读(150) 评论(0)
【指南】知乎已经四年了。在互联网世界里,知乎已经成为一个无可争议的高质量社区。然而,经过快速发展,如何管理、筛选和呈现这些大量信息(数据)已经成为一个难题。事实上,数据管理本身对任何社区都是一个巨大的挑战。以下是知乎联合创始人在七牛大会上关于知乎数据的演讲,稍作删减。大家好,我是知乎的李申申。第一,我想对主办方说:谢谢!感谢大家搭建这样一个专业的平台,让大家有机会聚在一起认真讨论数据这个话题。说实话,当我收到会议的邀请时,我第一次想到了这句话。正如Danariely所说,知乎也像许多面对大数据的人一样无知「年轻人」其中一个;虽然我们也在做一些与大数据相关的事情,但实际上相对肤浅。我听说今天在座的很多用户都是知乎用户,对知乎感兴趣,所以我会借此机会和大家分享一些关于知乎数据的工作。简单进入正题,先来看看知乎的基本数据。截至2015年7月,知乎社区注册用户2900万,月UV1.1亿,月累计页面浏览量3亿。现在知乎全站已经产生了大约620万个问题和近2000万个答案。用户总回答4、129、244、445字数,是大不列颠百科全书的近100倍,鹿鼎记的2580倍。除上述基本数据外,其他一些数字也在以让我们更快乐的速度发展。自知乎开放注册以来,我们截取了两个数据:1000多个同意的答案和1000多个单词的答案,看看它们的增长情况。可以看出,这两个数据都保持了相对稳定的增长趋势。再来看看这些用户日均获赞的数量。首先,必须注意的是,我们并不完全把这两个指标作为有价值的回答判断标准,但当用户愿意冷静下来,花时间写长文回答时,至少他的态度是认真的,符合知乎倡导的讨论理念。另一方面,知乎上的千赞代表了1000名知乎用户对此答案的认可和接受。除了2月份等过年期间的数据会稍微低一些,其他时候,这个数据的增长率基本保持在10%左右。基于话题的维度,我们随机抽取几个话题,看看最近的用户讨论趋势。这是心理学、互联网、经济和天津爆炸的话题。值得注意的是,当天津爆炸事件席卷了几乎所有的社交和舆论平台,引起爆炸性关注时,知乎站其他专业话题的讨论仍在继续。同时,由于天津事件后续讨论中涉及心理学的问题很多,知乎站内心理学话题的热度也略有上升。总的来说,知乎更像是一个广场,各种热门时事讨论似乎都是广场中央的喷泉,吸引了游客和公众的关注。与此同时,广场周围还有各种各样的酒吧、咖啡馆和茶馆,城市居民聚集在一起与知己交谈。知乎大V和知乎小白有很多知乎用户有疑问,只有早期用户同意知乎的社区概念,还是只有老用户容易获得认可和关注?事实并非如此。让我们来看看下面的数据截图。横轴是时间变化。我们截取了2010年12月20日知乎内测以来2015年6月30日批准前1万的用户,并根据他们的注册时间和批准数量绘制图纸,以及日均批准数量的增长。你可以看到这些点的分布相对分散,这表明增长相对均匀。可见,即使是2015年刚加入知乎的人,也有很大的机会得到关注和认可。这也表明,这些新用户也渴望仔细讨论和获得有价值的信息交换,这些用户也同意知乎的社区概念。一般的秘诀是,只要你继续参与讨论,并在你擅长的领域输出信息,你就能得到更多人的认可。如何生产知乎信息,如何流动?在前几张图中,我们已经了解了知乎百花齐放的话题和不断贡献的优质用户。让我们来看看知乎的信息生产模式。为了更加关注这个问题,我们选择了最近的天津爆炸事件作为例子。从发展模式来看,热点话题与其他话题没有什么不同。但由于其新闻性,这类话题的发展更具爆发性,用户的行为更加集中。因此,我们做这样的展示也更方便。首先,一群用户关注和回答问题,产生基本的高质量内容。然后,其他用户的自发邀请、关注、收集、感谢、投票、评论等社会行为,使这些内容得到更广泛的传播和关注,覆盖范围不断扩大。在知乎,社会行为催生了高质量内容的生产和传播,高质量内容引发了下一轮新的社会行为。用户兴趣识别如何使用大数据?用户在知乎的行为是多维的;它不仅包括相对较轻的浏览和阅读,还包括更重的认可和反对,以及更重的问答(这里的重量和轻量是根据用户的运营成本来定义的)。我们可以根据这些行为分析用户的特点,这也是每个互联网服务都会做的日常工作。只有根据不同的服务特点,我们才能分析不同的特点、算法和效果。除了大量的用户行为数据外,知乎还有大量的文本信息。基于行为和文本,我们可以更准确地识别用户的兴趣和擅长。在现实社会中,我们对某些领域的知识有着深刻的掌握,但其他领域可能不是。个人精力有限,没有人能全知成为各个领域的专家,这种情况可以映射到知乎上。不同的用户在不同的话题领域有不同的专业精神。我们需要掌握这种差异,为每个人计算每个话题下的权重。计算分数的主要依据是你在知乎上的回答。当然,我们也会添加一些其他的考虑因素,包括其他专业人士的认可、你的专业背景等。这是知乎非常基础的数据设施,但这个数值计算的量级并不小(百万回答用户10万个话题,是1000亿级别的数量计算)。知乎每周都会全量计算权重判断,一直在调整优化中。答案排序:如何更好地呈现?优化答案排序算法的目的是让好的答案更高。随着用户数量的不断增加,早期最简单的答案排名规则出现了问题:一些答案得到了更多的友好认可,使得专业性不足的答案被推到了最高的位置。我们想到了加权赞同票的方法,根据主题下每个人的专业权重来计算,排名优化,可以让大多数高质量的答案排在前面。虽然权重计算的优化仍在继续,但我们在算法上仍然遇到了一些瓶颈。当问题下有多个早期答案获得高票时,即使新答案的质量很高,也很难在问题页面上获得足够的曝光,很难积累更多的同意票,一些误导性、煽动性的高票内容,即使有很多反对票,仍然在严肃、严格但相对较少的高质量答案之前。在专业领域,这些问题对参与讨论的用户造成了特别明显的伤害。这绝不是我们想看到的。因此,我们设计了新的排序算法。新排序算法的想法是,如果向许多人展示一个答案并让他们投票,不同内容质量的答案将得到不同比例的批准和反对,最终得到反映内容质量的分数。当投票人较少时,答案的质量分数可以根据获得的票数进行估计。投票人越多,估计结果就越接近真正的分数。如果新答案得到1票认可0票反对,也就是说100%参与投票的用户选择认可,但是因为数量太少,分数不会太高。如果这个答案在一段时间内得到20次批准和1次反对,那么基于新算法,我们有信心把它放在另一个50次批准和20次反对的答案之前。原因是我们预测,当这个答案也得到50次同意时,反对数应该小于20次。威尔逊得分算法最好的特点是,即使我们错了前一步,现在新答案在前面,得到更多的显示,在得到更多的投票后,算法将修改自己,更准确地计算得分基于更多的投票数据,这样排名最终可以真正反映内容的质量。我们的新算法在年初发布后,得到了知乎站用户的热烈反馈,这也是制作知乎产品的好处。出现了许多专业的讨论,为我们的下一个优化提供了良好的想法。主页自我修养:内容个性化推荐主页内容将主要考虑这些方面:知乎主页有一套特殊的数据收集和处理机制,可以记录用户在主页上的所有重要行动,例如,如果用户浏览器窗口或手机屏幕上的内容,将记录一次。还有...知乎还有一些其他的数据优化,我举几个简单介绍的例子。1.邀请稍熟悉知乎的用户知道“谢谢”这个词。该产品的功能是为每个问题找到合适的答案并向用户推荐。我们采用算法模型来预测用户回答问题的可能性和质量。90%的邀请是通过这个推荐结果发出的,剩下的10%%每周由用户主动搜索生成的知乎精选邮件(eDM)通过不断的算法优化,我们对每个用户进行了个性化的计算,实现了30%的开启率和14%的点击率。2.众所周知,问题聚类想要聚类问题的文本。首先想到的是通过文本语义匹配和复杂的词袋模型(如传统的plsa)。LDA,新word2vec等)对问题文本进行向量化,使相关问题通过语义进行聚类。知乎站拥有庞大的用户浏览数据。如果通过简单的算法(如协同过滤)建立这些浏览数据,也可以取得很好的效果。知乎每天的问答浏览量可以达到1000万级,这意味着输入算法的useritem边数每天可以达到1000万以上,近三个月的浏览数据可以达到10亿边。在知乎的数据平台上建立模型需要近一个小时。从聚类结果可以看出,即使不使用任何与文本相关的分析,也可以通过用户浏览的行为分析很好地聚类问题。这也证实了基于大数据的简单算法比基于小数据的复杂算法更有效。
推荐阅读
- 成都网站开发多少钱?
如何降低开发成本?电商销售小程序的定制开发费用受项目复杂程度、功能需求和开发团队成本等因素影响。与云仓合作是否能节省成本取决于具体情况。旺来旺趣集团是专业的app软件开发服务商,提供从设计开发到后期交付的一站式服务。寻找靠谱团队可考虑其信誉…查看详情
- 玄幻小说排行榜,帮助你更快的找到经典玄幻小说
现在其实有很多人都很喜欢看小说,尤其是玄幻小说,属于大家必须要看的题材之一,而且有很多作品都比较经典。如果想要寻找到比较好看的玄幻小说,必须要查看以下的玄幻小说排行榜。 1、神墓神墓,属于作者的成名之作,这一本书就主要讲的就是一个人传奇的一…查看详情
- 互联网运营是什么?运营互联网需要哪些基础能力?
近几年随着互联网的崛起,越来越多企业老板开始重视互联网的运营,而运营的好坏也直接决定了企业的存亡,所以现在的市场依旧在大量招聘运营专员,薪资也是居高不下。所以想要去应聘互联网运营的人很多,但是现场一问,却有连互联网运营是什么都不知道的,也不…查看详情
- 免费小说下载(八大免费小说下载app排行榜)
现在当代的年轻人都喜欢看电子小说,而且很容易沉浸到小说的当中,去小说里体验各种各样的乐趣,那么该如何选择电子小说下载app呢,今天小编为大家带来的是免费小说下载app排行榜,大家快来看看吧!1.番茄免费小说番茄免费小说是一款北京臻鼎科技有限…查看详情
- 如何安装windows10家庭版
Windows 10家庭版是一款普及率非常高的操作系统,安装可以使用U盘、DVD、网络升级等多种方式,本文以使用U盘安装方法为例,详细讲述Windows 10的安装过程。具体步骤如下: 1.备份数据。在安装前,用户应该将需要保留的…查看详情
- 300m宽带用什么路由器
对于300M以上的宽带接入,需要选择一台性能更高、信号覆盖更广、信号稳定的路由器。以下为您提供路由器的选择要点和建议。 一、选择路由器的重点 1. 硬件配置:路由器的硬件配置表现在处理器、存储器和物理接口等方面。处理器直接影响设备…查看详情
- php是干什么的
智能光电与纳米技术是干什么的?该技术是干成像和光源。其中成像技术有CRT、像管、像增强器、CCD、CMOS、3D成像、全息成像、液晶、等离子、PHP。光源技术有红外、紫外、可见光、激光。 智能光电与纳米技术在近代发展的很快涉及面也逐渐扩散…查看详情
- CRM好吗?当然,只是销售人员讨厌它而已!
目前市面上绝大多数销售管理软件都是以销售漏斗为核心开发的,这就意味着销售漏斗对于销售管理的重要性。随着近几年我们对销售漏斗的研究发现,销售漏斗在发挥它的作用的同时也有他的局限性,造成了很多企业的CRM系统使用效果并不好,销售人员抵触使用的情…查看详情
- 美术作品版权登记及作品授权范围须知
美术作品大体分为两类,一类是传美术作品,也就是油画、国画、水彩画等供人欣赏的艺术作品;另一类是实用美术作品,比如陶艺这类,将美术创作与具有实际使用价值的物体相结合的作品。美术作品版权登记范围主要在服装设计、陶艺图案、手机壳设计、手绘创作、商…查看详情
- 【国家版权局】我国对国际版权登记条约的规定实施
目前,各国版权登记保护内容都依该国相关条例实施。从登记方法、保护期限、权利人专有权益等各有不同。我国对国际版权登记部分条约的规定如下: 图片来源于网络 实施国际版权登记条约的规定(1992)第一条 为实施国际著作条约,保护外国作品著作权人的…查看详情
- 有哪些好的大牌女装品牌店呢?
由于世界男女比例平衡女性的需求也越来越大,女性在选择女装时比较倾向于大牌女装品牌店,这叫影响了我们在购物时会踩很多雷会买到假货假衣服,为了给大家一个好的体验效果特此为大家整理出比较出名的大牌女装品牌店,供大家参考。 一、HugoBoss女装…查看详情
- 免费好看的动漫网站有哪些 动漫网站推荐几个
相信很多的小伙伴都比较喜欢看动漫,其实看动漫也是一种非常不错的体验,下面万商云集小编就给大家来详细介绍一下免费好看的动漫网站有哪些 同时小编精选几个动漫网站推荐几个给大家,希望大家喜欢, 1.搜漫 搜漫是一个全网漫画搜索引擎。无论是…查看详情
- 查情侣头像的另一半软件有哪些?
平时热恋中的一对情侣,不仅会喜欢穿情侣装,而且在使用头像的时候也会选择情侣头像。这样才能够秀出两个人的恩爱,比如说一个人选择了头像之后,想要选择另一半的头像可能并不是很好找,如果选择了一款专门的软件,就相对来说比较方便。那么查情…查看详情
- 2022出租车软件排行榜前十名
最近几年随着网约车对出租车行业的冲击,现在很多的人都不知道怎么打出租车了,下面万商云集小编给大家来介绍一下2022年出租车软件排行榜前十名. 1.滴滴快车 实时叫车,百秒应答,出行必备的打车应用。预约用车,三天内全国已开通城市间无缝预约…查看详情
- 租用CRM和买断CRM有什么区别?
为了企业管理转型,很多企业会选择实施CRM企业关系管理系统软件来帮助企业快速转型,提升企业管理效率。市面上CRM系统的销售类型分为两种:一种是租用型,另一种是买断型。 图片来源于网络� 那么这两种销售模式对企业来说的区别是什么呢?所谓租用…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品

找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达

关注万商云集
和10万中小企共成长

TOP

企业首选的数字选用平台

400-0033-166
8:30-18:00
















































注册有好礼



