2019

08/15

05:06

来源:
人民网

微信

新浪

面对海量信息,如何实现内容识别

  互联网平台的出现以及移动传播体系的形成,改变了人类内容生产和分发的方式。从形态上,互联网平台代替传统媒体成为了信息聚合和分发的枢纽;从传播关系看,社会成员个体的参与愿望及信息需求,形成了当代社会信息交互的双轮驱动。?#20174;?#22312;内容生产与分发过程中,现象之一就是互联网用户个人上传的各类内容成为了网络空间里一个海量的存在,以当前发展迅速的短视频平台为例,它们每天都有数以千万条计的短视?#30340;?#23481;上传;现象之二是,这样海量的内容只有通过移动终端,面向用户个人的差异化信息需求,通过推送式的精准分发,才能使人们所生产的信息“各得其所”、“各尽其用”,以充分发挥不同内容的效能。

  这一切的前提是内容本身是真实?#27169;?#20581;康的。而面对每天上传到互联网平台上数以十万篇计的文章、千万条计的短视频、十亿张计的照片这样级别的海量信息,想要鉴别它们的“成色”并实现推送式的精准分发,必须充分运用人工智能技术。这也就是为什么习近平同志在2019年1月25日的中央政治局集体学习时?#19981;?#20013;,要求“探索将人工智能运用在新闻采集、生产、分发、?#37038;鍘?#21453;馈中” 。通俗地说,就是要“互联网技术产生的问题,用互联网技术来解决”。

  维护互联网平台上内容的真实性和健康性是一个国?#24066;?#35838;题。即使是不同社会制度的国家,也都面临着互联网平台带来的各种挑战,其中互联网内容的真实、健康和安全是最为人们关注的。各个国家的互联网平台都在做出努力来解决上述问题。这些努力的主要方面,就是积极利用人工智能技术,开发对互联网内容进行审核的应用。中国的互联网平台在这一领域居于领先地位。

  以国内最大的资讯分发平台今日头条及其系列产品为例,其反低俗的软件“灵犬”,经过三次迭代升级,最新版本包括识别类型和模型能力的重要升级,同时应用了“Bert” 和半监督技术 ,并在此基础上使用了专门的中文语料,使对存在色情低俗、暴力谩骂、标题党类问题内容的文本识别准确率提升至91%,还能支持对含有色情低俗、血腥暴力成分的?#35745;?#30340;识别。比较而言,谷歌等平台对虚假、低俗类信息识别的技术路线更多是“重点对用户特征(包括个人级别特征和组织级别特征)、新闻特征(包括文本特征和传播特征)和网络关系(包括用户关系网、事件关系网和传播路径网)这三个要素进行自动查验” ,具体而言,更多依靠用户的反馈和标注,以及对相关因素的一致性检验,在借助人工智能和大数据对文本本身进行更加全面的识别方面?#24230;?#19981;足,从而导致相应的技术能力无法应对以“深伪(Deepfake)”为代表的伪造信息技术的发展。有研究者指出,“瑞士科学家在一篇论文中就首次对人脸识别方法检测Deepfake的效果进行了较为全面的测评,尝试用最前沿的人脸识别系统去识别假视频,结果错误率高达95%。所以当前如果要求平台对深度伪造等合成媒体内容进行识别和标注,在技术上几乎是不可能实现的” 。这一事实告诉我们,在网络传播中反虚假、反低俗,还是要更多依靠更加先进的人工智能应用,通过大数据与算法的结合,提升对各类内容(文字、?#35745;?#35270;频等)的识别能力。

  当前的人工智能,实质上是基于对人类处理各种事务规则的算法化,并基于大数据提供的深度学习资源而实现的。具体地说,就是人们根据对于客观事物的认识,制定处理相关事务的规则和标准,然后找到一组数学公式来模拟这个过程,也就是形成算法,再把算法开发成为软件,就可以用大数据来训练这个软件学会识别不同状态和情况,达到比较成熟的水平就可以上线运营,代替人类来工作了。客观上,在这个过程中,关键性的难点在各个?#26041;?#37117;存在。如人们制定的标准和规则是否科学,取决于人们对相关事物本身发?#26500;?#24459;的认识水平。按?#31456;?#20811;思的论断,“一种科学只有在成功地运用数学时,才算达到了真正完善的地步”。 这需要人们对客观规律有深刻的认识,目前在社会科学领域这显然是研究的短板。在内容审核方面,也存在标准和规则随具体场景而变化的情况,实践中,即使实现了规则和标准清晰且正确,还要能够找到可行的算法,建立较大规模的数据库,还要有算力的支持。从上述过程看,利用人工智能的深度学习来解决虚假、低俗内容充斥网络空间的问题,是一个具有相当技术难度的系统工程,需要假以时日,需要付出更大的努力。

  用技术识别内容如此之难,是不是我们就不要走这条路,靠人工去完成这个工作呢?很显然,在互联网传播环境下,这是不现实的。当前,互联网技术的应用,已经实现了在传播的技术条件方面对用户的普遍赋权,在中国,每天都有数以亿计的互联网用户活跃在各个网络平台上,以短视频为例,抖音等平台,每天都有千万条级别的内容上传,今日头条平台每天经审核后发布的内容?#32479;?#36807;60万条。这是无法完全用人工去处理的。与人工审核相比,机器审核的优势在于,机器一是计算快,一秒钟能执行百亿次计算;二是存储大,可以轻松存储千亿以上汉字;三是运行稳定,不会因心情、状态、对标准的理解等因素影响处理结果。据了解,由于强化内容标注和审核的需要,今日头条的母公司“字节跳动”已经建立了近万人的审核团队。在“机器+人工”审核模式下,我国主要的互联网信息分发平台的内容安全得到了较大程度的提升,未来随着研究的深入、技术的进步,内容审核的水平还会持续提升。(宋建武)

面对海量信息,如何实现内容识别

2019 17:06来源:人民网

  互联网平台的出现以及移动传播体系的形成,改变了人类内容生产和分发的方式。从形态上,互联网平台代替传统媒体成为了信息聚合和分发的枢纽;从传播关系看,社会成员个体的参与愿望及信息需求,形成了当代社会信息交互的双轮驱动。?#20174;?#22312;内容生产与分发过程中,现象之一就是互联网用户个人上传的各类内容成为了网络空间里一个海量的存在,以当前发展迅速的短视频平台为例,它们每天都有数以千万条计的短视?#30340;?#23481;上传;现象之二是,这样海量的内容只有通过移动终端,面向用户个人的差异化信息需求,通过推送式的精准分发,才能使人们所生产的信息“各得其所”、“各尽其用”,以充分发挥不同内容的效能。

  这一切的前提是内容本身是真实?#27169;?#20581;康的。而面对每天上传到互联网平台上数以十万篇计的文章、千万条计的短视频、十亿张计的照片这样级别的海量信息,想要鉴别它们的“成色”并实现推送式的精准分发,必须充分运用人工智能技术。这也就是为什么习近平同志在2019年1月25日的中央政治局集体学习时?#19981;?#20013;,要求“探索将人工智能运用在新闻采集、生产、分发、?#37038;鍘?#21453;馈中” 。通俗地说,就是要“互联网技术产生的问题,用互联网技术来解决”。

  维护互联网平台上内容的真实性和健康性是一个国?#24066;?#35838;题。即使是不同社会制度的国家,也都面临着互联网平台带来的各种挑战,其中互联网内容的真实、健康和安全是最为人们关注的。各个国家的互联网平台都在做出努力来解决上述问题。这些努力的主要方面,就是积极利用人工智能技术,开发对互联网内容进行审核的应用。中国的互联网平台在这一领域居于领先地位。

  以国内最大的资讯分发平台今日头条及其系列产品为例,其反低俗的软件“灵犬”,经过三次迭代升级,最新版本包括识别类型和模型能力的重要升级,同时应用了“Bert” 和半监督技术 ,并在此基础上使用了专门的中文语料,使对存在色情低俗、暴力谩骂、标题党类问题内容的文本识别准确率提升至91%,还能支持对含有色情低俗、血腥暴力成分的?#35745;?#30340;识别。比较而言,谷歌等平台对虚假、低俗类信息识别的技术路线更多是“重点对用户特征(包括个人级别特征和组织级别特征)、新闻特征(包括文本特征和传播特征)和网络关系(包括用户关系网、事件关系网和传播路径网)这三个要素进行自动查验” ,具体而言,更多依靠用户的反馈和标注,以及对相关因素的一致性检验,在借助人工智能和大数据对文本本身进行更加全面的识别方面?#24230;?#19981;足,从而导致相应的技术能力无法应对以“深伪(Deepfake)”为代表的伪造信息技术的发展。有研究者指出,“瑞士科学家在一篇论文中就首次对人脸识别方法检测Deepfake的效果进行了较为全面的测评,尝试用最前沿的人脸识别系统去识别假视频,结果错误率高达95%。所以当前如果要求平台对深度伪造等合成媒体内容进行识别和标注,在技术上几乎是不可能实现的” 。这一事实告诉我们,在网络传播中反虚假、反低俗,还是要更多依靠更加先进的人工智能应用,通过大数据与算法的结合,提升对各类内容(文字、?#35745;?#35270;频等)的识别能力。

  当前的人工智能,实质上是基于对人类处理各种事务规则的算法化,并基于大数据提供的深度学习资源而实现的。具体地说,就是人们根据对于客观事物的认识,制定处理相关事务的规则和标准,然后找到一组数学公式来模拟这个过程,也就是形成算法,再把算法开发成为软件,就可以用大数据来训练这个软件学会识别不同状态和情况,达到比较成熟的水平就可以上线运营,代替人类来工作了。客观上,在这个过程中,关键性的难点在各个?#26041;?#37117;存在。如人们制定的标准和规则是否科学,取决于人们对相关事物本身发?#26500;?#24459;的认识水平。按?#31456;?#20811;思的论断,“一种科学只有在成功地运用数学时,才算达到了真正完善的地步”。 这需要人们对客观规律有深刻的认识,目前在社会科学领域这显然是研究的短板。在内容审核方面,也存在标准和规则随具体场景而变化的情况,实践中,即使实现了规则和标准清晰且正确,还要能够找到可行的算法,建立较大规模的数据库,还要有算力的支持。从上述过程看,利用人工智能的深度学习来解决虚假、低俗内容充斥网络空间的问题,是一个具有相当技术难度的系统工程,需要假以时日,需要付出更大的努力。

  用技术识别内容如此之难,是不是我们就不要走这条路,靠人工去完成这个工作呢?很显然,在互联网传播环境下,这是不现实的。当前,互联网技术的应用,已经实现了在传播的技术条件方面对用户的普遍赋权,在中国,每天都有数以亿计的互联网用户活跃在各个网络平台上,以短视频为例,抖音等平台,每天都有千万条级别的内容上传,今日头条平台每天经审核后发布的内容?#32479;?#36807;60万条。这是无法完全用人工去处理的。与人工审核相比,机器审核的优势在于,机器一是计算快,一秒钟能执行百亿次计算;二是存储大,可以轻松存储千亿以上汉字;三是运行稳定,不会因心情、状态、对标准的理解等因素影响处理结果。据了解,由于强化内容标注和审核的需要,今日头条的母公司“字节跳动”已经建立了近万人的审核团队。在“机器+人工”审核模式下,我国主要的互联网信息分发平台的内容安全得到了较大程度的提升,未来随着研究的深入、技术的进步,内容审核的水平还会持续提升。(宋建武)

为你推荐

网络文学:“量大管饱”,更要时代精品

第三届中国“网络文学+”大会由国家新闻出版署、?#26412;?#24066;人民政府指导举办。大会汇聚了100多家文化企业、1000多部优秀作品和近万名?#21040;?#20195;表,共同为新时代网络文艺把脉献策。

面对海量信息,如何实现内容识别

在“机器+人工”审核模式下,我国主要的互联网信息分发平台的内容安全得到了较大程度的提升,未来随着研究的深入、技术的进步,内容审核的水平还会持续提升。

互联网平台经济要“量身”监管

在电商平台,一个品牌从?#23433;?#22312;深山人未知”到“一举成名天下知”,可能仅需一两年的时间?#25381;行?#32593;红产品通过直播平台等传播,可能一夜之间就被消费者熟知,这就是互联网平台经济的魅力

王者荣耀兰陵王出装与铭文推荐
天津时时开奖趋势 秒速时时多aqq 重庆时时彩玩法详解 全天三分时时彩计划 下载腾讯分分彩app 2018香港马会资枓大全146 北京赛app软件 网赌刷流水反水能赚钱吗 湖北11选5走势图技巧 广东中石化app官网下载