内容审核,今日头条是怎么做好的?
2020-11-25 10:48:08 阅读(194) 评论(0)
时间到2019年中,脸书全球月生活超过22亿,Youtube19亿,微信超过10亿,可以说互联网覆盖了全球大部分人口,随着用户时间的同步激增,内容生产消费水平也呈指数井喷,大量内容对大平台和小公司形成了巨大的管理困难和审计挑战。2018年,Facebook上传了3亿多张照片,每分钟发表51万条评论和30万条新状态;Instagram上的照片和视频每天共享9500万次;在微信朋友圈,每天上传10亿张图片。截至2018年,每天创建约2.5万亿字节的数据,过去两年生成的数据占全球总数据的90%。预计到2022年,全球互联网流量将达到每秒7.2PB。在内容数量井喷的同时,内容的形式也在不断变化。除了传统的图形内容外,音频、长视频、短视频和直播的比例也在增加,这对于那些追求实时性(发布速度和用户体验)的人来说、内容平台审核管理,追求无问题(举报率和负面事件),提出了巨大而严峻的挑战。国际顶级UGC平台,包括Facebook和Youtube,在这种老生常谈的问题上仍然非常困难,尤其是发达国家最关心的年轻内容、种族歧视和跨国文化/多语言。事实上,他们还没有给出令各方满意的答案。在今年国内知名的互联网内容社区产品中,下架甚至关闭的产品不少于10种。虽然他们都有自己的问题,如色情内容、微信业务、内容涉政等,但归根结底,这仍然是用户激增带来的日益增长的内容生产与无法跟上的审计措施和效率之间的矛盾。一、Facebook:2018年,Facebook以人工智能和计算能力应对了大量内容,遭遇了巨大的信任危机。除了数据接口和用户隐私处理不当外,平台上的内容审计政策也受到了严重质疑。但事实上,它背后的核心问题是,这家公司是世界上最大的互联网内容吞吐量平台。而且这些内容不仅在Facebookapp上发布和消费,还在本公司旗下月活15亿的Whatsapp上、13亿FacebookMessenger和10亿Instagram的传播和推广,因此该公司将承受如此大的内容审计压力。那Facebook的应对措施是什么呢?在去年著名的美国国会听证会上,扎克伯格在一个小时内提到了30多次人工智能,坚持人工智能是平台内容审计的答案,他的原话是:“未来五到十年,人工智能将成为世界上最大的社交网络捍卫者,解决世界上最紧迫的问题,也帮助公司回答审计、公平和人类控制等棘手问题。“小扎声称,99%的Facebook关于ISIS和基地组织的内容在人们看到之前都被人工智能系统标记并删除了。然而,如果人工智能想要与内容审计相结合并着陆,它必须采取一些具体的措施。Facebook目前的审计分为文字审计、图片和视频审计,以及大量的人工合作。在文本审查方面,Facebook推出了Deeptext(深度文本)引擎,利用深度神经网络架构来理解这些帖子的内容,据说它可以同时理解数千篇文章的文本内容,几乎人类的准确性。与国内各大平台的审计体系相比,其优势不仅更快,而且作为一个全球社区,Facebook可以审核20多种语言的文本。Deeptext甚至可以通过用户发送的内容实时分析用户的想法,结合文本和图片,通过提取意图、情绪和实体(人物/地点/事件),自动去除垃圾信息的干扰。这种能力已经在Facebookmesenger上得到了测试和验证。当然,这种人工智能技术不仅用于审查一些可能的危险(青少年犯罪),还可以改善用户体验,帮助广告商开展有针对性的宣传活动。Facebook很难为这些实时和大量的信息编制目录并搜索它们,所以他们转向了人工智能。与此同时,Newsfeed作为一种短而高频的内容材料,恰好是许多开展深度学习活动的有效场所之一,因为每个feed背后都包含了人们想看到的与他们相关的内容。Facebook的图片和视频审核系统名为Rosetta,利用光学字符识别系统处理图片和视频内容,每天实时从10亿多张图像和视频帧中提取信息,识别各种语言背后的含义。此外,Facebook上周刚刚开源了他们在图像识别和视觉领域的最新模型:ResNext101。在Instagram的图片标签上进行预训练,并在Imagenet上进行微调。Imagenet于2009年由著名人工智能专家李飞飞教授团队发布,包括2万多个物体1400多万张图片。后来,许多计算机视觉任务模型都在此基础上进行了培训。Resnext101更上一层楼,利用Instagram上的35亿张图片(比Imagenet的1400万多倍)进行预训练,并以人为图片添加主题标签(#hashtag)为类别开发的具有超强特征提取能力的图像识别模型。在这两个系统的背后,Facebook人工智能研究所FAIR(FacebookArtificialIntelligenceResearch)充分发挥功劳。例如,物体识别技术(Objectrecognition),以数十亿参数和数百万案例训练的神经网络为基础,有力支持最具挑战性的图片和视频审核。此外,他们还使用自我监督学习(SSL)通过分析未标记的图像、视频或音频,探索大量数据,使机器能够学习世界的抽象表达,这也是FAIR规模人工智能能力的努力之一。FAIR还在研究用户头像的面部识别、上传照片的环境识别等。它负责Facebook所有与人工智能相关的基础研究、应用研究和技术开发。比如刚刚获得国际视觉模型挑战赛冠军的Maskr-CNN,该系统可以将计算机视觉世界的物体检测与语义分割相结合,不仅可以检测劣质视频内容,还可以帮助视障人士自动替换文本。然而,你永远不要认为世界上最大的社交网络和内容平台只能通过人工智能和审计系统来完成一切。到目前为止,Facebook已经聘请了2万多人来协助内容筛选,并配合监控和删除有争议的内容。二、YouTube:YouTube的内容审核系统名为ContentID,将监控并直接删除色情、低俗、暴力等违法内容。然而,该系统的诞生只是为了解决YouTube上内容的版权问题。YouTube早年以草根内容开始,后来出现了大量的搬运号,主要是盗版电视台的精品内容。虽然平台数据飙升,但也陷入了旷日持久的诉讼。包括维亚康姆(美国第三大传媒公司)在内的2007年至2009年,Mediaset(意大利媒体集团)和英超(英国最大足球联赛)等组织对YouTube提起诉讼,声称对用户上传侵权内容无所作为。维亚康姆要求赔偿10亿美元,他们声称在YouTube上发现了15万多个版权内容片段,累计播放量超过15亿次。经过多年的诉讼和公关战,直到2014年,双方才最终协商解决争议,但具体情况并未公开。因此,YouTube自2007年以来,在被谷歌收购后,逐渐投入巨资建立了谷歌版权系统,慢慢帮助版权所有者识别平台上的侵权行为,使版权所有者能够直接在平台上获得收入。截至2018年,谷歌已投资超过1亿美元进行技术研发。后来,随着ContentID内容监控能力的不断提高,比如用哈希算法标记风险视频、阻断⽌它们被⼆二次上传,也取得了显著成效。以2017年Q4为例,该平台删除了800万个“恶心”视频,其中670万个是由监控软件自动标记的。在被用户观看之前,大约75%的标记视频被下架。2014年9月,YouTube人性化⽉前端增加了限制模式(RestrictedMode),用以过滤⾊情暴⼒内容,但是⽤家庭可以选择自己打开或关闭。依据⽤家庭报告和其他识别规则可以直接过滤给用户⼤部分内容不当。当然,YouTube的内容审核能力取决于谷歌的深度学习技术GoogleBrain。谷歌Brian拥有一个神经网络,收集用户信息(如观看历史和用户反馈),以及一个神经网络,用于安排显示的部分视频,通过引入机器学习工具,自动标记暴力、色情和粗俗的极端视频,并向人工审计师报告非法内容进行验证。与Facebook类似,YouTube的AI标记、内容审核和识别技术并不完美,即使有Google的技术支持(包括资金、人才、算法、云和服务器等)。).YouTube首席执行官苏珊·沃西基在2018年承诺,未来至少会雇佣1万名人工审核员来弥补算法的局限性。早些时候,英国政府和一些广告公司发现他们的广告被推荐到极端分子上传的视频内容旁边,造成了许多不良影响。许多政府和广告商联合宣布将删除他们在YouTube账户上的内容。然而,Google对YouTube的帮助并不局限于内容审核,GoogleBrain的技术已经应用于安卓语音识别,Google YouTube的图片搜索和智能推荐。因此,YouTube已经从一个视频UGC社区,逐渐成为一个内容量大、搜索驱动的视频综合网站,到一个视频推送能力强的应用。如今,由推荐算法引擎驱动的内容占用户在YouTube上观看视频总时间的70%。三、标题:审计系统对外开放会带来哪些变化?今天的头条新闻拥有大量的用户和各种形式的UGC内容。虽然体积相当差,但内容审核的挑战与脸书和Youtube非常相似。头条新闻在这方面的一个举措是,经过多年的技术储备和经验积累,它开启了内部反低俗系统的简化版本“灵狗反低俗助手”,希望普通创作者和公众能够更好地理解和关注反低俗。截至2019年6月,灵犬反低俗助手的外部用户已超过300万。使用者只需在灵犬的小程序中输入一段文字或文章链接,灵犬就可以帮助其检测内容健康指数,并返回鉴定结果。对于用户输入的内容(文本或图片),“灵狗”将首先提取、单词和语义识别,然后根据相关规则输出相应的分数、评级和结论。在文本识别领域,头条还应用了“Bert与半监督技术相比,培训数据集包含920万个样本,精度提高到91%。在图像识别领域,“灵犬”采用深度学习作为解决方案,在数据、模型、计算能力等方面进行了有针对性的优化。最近,新版《灵犬3.0》发布,重点拓展了反低俗识别的类型和模型能力,涵盖了图片识别和文本识别。后续,灵犬还将支持最困难的语音识别和视频识别。然而,今日头条的人工智能实验室王长虎也提到,人工智能仍然存在缺陷。今日头条有近1万人的审计团队协助人工智能审计。例如,对于粗俗的内容,它的定义相对一般,难以准确。即使对人来说,这项工作也不容易,机器也更难实现。例如,裸体女性经常出现在世界著名的绘画中。如果完全由机器判断,机器会认为这幅画是粗俗的;一些芭蕾舞照片,从机器的角度来看,实际上类似于裙子的底部。Facebook因“裸露”错误删除了一张著名的越南战争新闻照片,内容是一个小女孩被汽油弹炸伤,赤裸裸地奔跑。事件发生后,在美国新闻界引起了巨大争议。然而,在当前内容创作和消费规模大幅增长的趋势下,如果所有问题仍然仅仅依靠人工解决,那么它将不可避免地效率低下,无法满足用户的需求。所以,AI 人工内容审核方法将是相当长时间的常规手段,这也是Facebook、YouTube等国际头部内容平台采用的处理方法。4、结论未来,随着用户和内容数量的不断增加,内容审计的挑战将越来越严峻,政策相关监管将越来越严格。虽然图形内容识别问题逐渐被克服,但语音和视频的内容理解还有很长的路要走,手动和机器检测也更加困难,特别是当您需要联系特定的用户使用场景和政治和社会背景时,难度将成倍增加。例如,邓丽君的歌曲早年被认为是一首粗俗的歌曲,现在已经被广泛接受和唱在街上;例如,内衣和内衣模特出现在购物平台上,默认是正常的,但如果经常出现在新闻和信息平台上,可能被怀疑是粗俗的;正常的热舞内容,提供给成年人,符合常规标准,但如果青少年模式开放,这些内容不应该出现。这是因为时间
推荐阅读
- 浅析mas系统生产管理原理及方法
随着工业化的不断发展,传统生产制造业在现今的经济环境和行业市场竞争下,已经很难立足,企业要想获客,就得在智能化生产制造方面不断更新和迭代,mas系统在生产管理方面可有效提升生产计划的工作效率,并减轻生产计划员的压力,下文将浅析mas系统生产…查看详情
- 经典末日小说排行榜|小说推荐
小说作为我们日常中常备的娱乐设备,也有很多分割点,比如,恐怖小说,悬疑小说,都市小说以及我们今天要讲的末日小说,其实小说里面的东西大部分都是虚幻的存在,极少数都是真实的,或者可以理解为,所有的小说都是在现实的基础上创作而成,不过就是换了名字…查看详情
- 电脑没声音怎么办
电脑一点声音也没有,歌曲也不能播放、怎么回事啊?! 1、电脑没声音了,首先检查一下,电脑屏幕右下角是否有小喇叭图标,如有,说明有声卡驱动程序,那就双击该图标,看是否设置了静音,如设了静音,去掉解音设置,如没设,是不是音量调成了最小,听不见…查看详情
- 小程序有什么用?门店商家获客和增加盈利的必备工具
小程序是轻量型应用,其最大特点是无需下载且基础功能齐全。小程序有什么用?它对于拥有线下门店的商家企业来说,是一种新型销售模式。图片来源于网络 小程序有什么用?线下门店商家,抓住小程序风口,进行小程序开发,可拥有以下几大优势:◤ 1. 开拓…查看详情
- 如何在百度上做产品推广 这几个方法适合大多数企业
可以说现在百度搜索推广是大多数中小企业破局流困局的主要营销方式,下面万商云集小编给大家整理了详细的百度营销推广思路,希望能帮助到大家、。 一、百度推广是什么? 在谈百度推广之前,我们先谈百度平台。 百度作为互联网公司之一,百度主要从…查看详情
- 绿云酒店管理系统好用吗?看看网友怎么说
随着社会发展,各种智慧型的商店不断出现在我们的日常生活中,前有无人便利店,后有智慧烘焙坊,现在智慧酒店也即将覆盖每个地区,好评如潮的绿云酒店管理系统到底好用吗?一起来看看网友都是怎么说的。 绿云酒店管理系统相关介绍了解: 杭州绿云酒店管理系…查看详情
- 2022年非常值得入手的备份还原系统软件
想来各位总会遇上这样的问题,电脑用久了,便会出現多种问题,这样的情况各位总会决定重装电脑,大家总会找到许多备份还原的系统软件或是APP软件来处理这样的情况,说到这儿我不得分享几款,跟我一起来瞧瞧吧 1.IperiusBack…查看详情
- 关于知识产权的解释:知识产权什么意思?
知识产权什么意思?它和专利又是什么关系?小万认为对于这类带有专业词汇的问题,都是许多人都常常疑惑的问题。那么不妨接着往下看,小万将对此一一解释,为大家解决心中的疑惑。 图片来源于网络● 知识产权什么意思?知识产权,它也可以被称为“知识所属…查看详情
- 一般纳税人注销流程几个工作日
注销一般户需要多久? 一般在24小时以内,如果遇到特殊工作日,可能在1-3个工作日左右。 注销需要办理的手续: 1.开户许可证; 2.单位印鉴卡; 3.尚未使用和已作废的支票; 4.银行需要提供的其他资料。 银行基本帐户是…查看详情
- 乳胶漆品牌十大排名有哪些 2022乳胶漆品牌排行榜
相信在平时装修的时候大家都会使用乳胶漆毕竟是属于装修的必需材料,下面万商云集小编给大家来详细介绍一下乳胶漆品牌十大排名有哪些 2022乳胶漆品牌排行榜这一块的内容。 第十名:大师漆是PPG工业集团旗下知名建筑涂料品牌,也是中国市场…查看详情
- windows10画图工具在哪里
Windows10 自带的画图工具是一个非常简单和实用的软件,它提供了绝大部分绘图和图片处理所需的基本功能。通常情况下,我们可以直接使用画图工具来编辑和处理图片,而不需要安装复杂的第三方软件。下面我将详细介绍Windows10 自带…查看详情
- 有哪些软件项目管理软件比较好用?
随着社会经济的不断发展,各个企业为了提高工作效率,都会应用到一套软件项目管理软件。软件项目管理软件可以帮助企业更好地开展项目,有哪些软件项目管理软件比较好用?详细解答在下面: 1.项目管理系统 它是一款以项目管理为核心的软…查看详情
- 简单好上手的图书馆管理软件
图书馆的书比较齐全,在别的地方找不到的书在图书馆都可以找到,但是,面对这么多书籍,想要快速找到自己想要的书,就需要借助软件查询,看看在哪一行可以找得到,那么,图书管理软件有哪些? 1.小满图书软件 小满图书借阅管理主要用于个…查看详情
- 网店的运营模式:适合自己的,明白想要的就容易成功
每个网店的运营模式不同,成功的方式也不同,有人大手笔打广告,有人精打细算做排名,也有人剑走偏锋做刷单。不管如何,想要做好一个店铺,拥有自己的“一技之长”是必不可少的,看看下面几种网店的运营模式,哪种适合你。图片来源于网络 介绍5种网店的运营…查看详情
- 好玩的网页游戏有哪些 十大网页游戏排行榜
玩游戏我们可以先看一下别人玩什么游戏,然后如果感兴趣的话,你也可以根据别人玩的游戏去玩耍,当然我们也可以先了解一下十大网页游戏排行榜有什么,了解了排行榜从排行榜中做选择的话,会节省很多的时间,能在短时间之内做出选择。十大网页游戏排行…查看详情
猜你喜欢
最新文章

扫码二维码
立即领取《千元实战营销秘籍》
还可免费试用营销管理系统
*如有疑问,请随时拨打免费咨询热线:400-0033-166
服务时间:8:30-18:00
软件企业
认定号:川RQ-2018-0216
高新技术企业
认定号:GR201951001121

关注微信公众号
和10万中小企业共同成长

扫码下载APP
享全方位服务一触即达
Copyright © 2004-2022 万商云集(成都)科技股份有限公司 版权所有
蜀ICP备12001963号-2
川公网安备 51010402000322号

快速找产品
找一找哪款产品适合您?
咨询热线:400-0033-166
-


-
电话沟通
在线咨询
获取方案
下载APP
官方微信
扫码下载APP
全方位服务一触即达
关注万商云集
和10万中小企共成长
TOP

企业首选的数字选用平台






