新传播观 | AI新闻视频剪辑的原理与应用价值
2021-04-26 14:56
收录于专题:新传播

秦艳

人工智能驱动下的新闻业越来越依靠算法进行新闻生产,AI技术正在越来越多地应用于视频剪辑中。本文通过对比传统视频新闻剪辑与AI新闻视频剪辑,从基于人脸识别的逻辑取向、基于表情识别的逻辑取向、基于声音处理的逻辑取向、基于文字处理的逻辑取向和基于素材整合的逻辑取向出发,结合国内外相关的智媒体应用,对AI新闻视频剪辑的原理进行探讨,并从降低制作成本、提高新闻时效性、实现多版本制作、推动传统媒体转型四个方面,分析人工智能技术在新闻视频剪辑中的价值。

【关键词】人工智能  新闻视频剪辑   新闻生产  新闻算法

人工智能驱动下的新闻业越来越依靠算法进行新闻生产。[1]机器人新闻等自动化生产方式实现了新闻文本的量产。在新闻视频领域,人工智能技术也应用其中,目前国内外很多主流媒体纷纷布局AI新闻视频剪辑,如新华社的MAGIC、路透社与Synthesia公司合作的人工智能媒体平台等。传统的电视新闻剪辑是依据传播目的和新闻主题,选择声像素材并进行合理的组织剪接,将其组接成一个能够生动准确传达新闻信息的整体。[2]由于报道题材和叙事模式的差异,导致不同的电视新闻素材,在剪辑上的逻辑和难度不同。一般来说,需要动用蒙太奇叙事手法的剪辑,创造性更强,更适合人工;而单纯提供信息,不需要动用蒙太奇叙事手法的剪辑,更容易通过人工智能技术实现,也更适合突发事件报道。

一、AI新闻视频剪辑的原理

(一)基于人脸识别的逻辑取向

人脸识别的步骤包括人脸检测、人脸特征提取及特征比对。其基本原理是通过人脸检测技术判断画面中是否存在人脸,对检测到的人脸进行特征点定位,将人的面部五官关键点转换为向量编码,从而实现人脸的特征建模。[3]人脸匹配时,机器会比对正在识别的人脸的建模数据与数据库中的人脸数据,当数据相似度满足某一设定阈值时,即可完成人脸识别。

如新华社推出的拍摄机器人MAGIC,集合360°环视高清摄像机、专业摄像机,利用激光视觉多传感器混合定位导航和人物识别追踪技术,可独立完成自由移动、自主采集视频、自动识别人物等操作,配合超高算力边缘计算节点,实现数倍加速响应时间。MAGIC拍摄的素材同步上传到媒体大脑,利用人脸识别技术锁定人物专属画面,自动生成个人Vlog,用户刷脸即可获得个人专属Vlog。[4]

AI剪辑新闻视频过程中,人脸识别技术可支撑人物视频素材的快速搜集,从而实现单人画面集锦的剪辑。例如,NBC Sports old平台在2020年的职业高尔夫巡回赛时,利用多台摄像机多角度跟踪拍摄收集球场上每位运动员的比赛镜头,利用人脸识别技术在多条多人物长视频中,识别某一指定人物镜头,剪切后重组镜头片段,合成出每位参赛运动员的单人集锦视频,用户点击相应运动员的头像即可查看。[5]基于人脸识别技术的新闻视频剪辑,融合海量视频素材,根据不同需求复用素材实现个性化再生产。同时借助AI 技术强大的搜索能力,打通素材收集与视频剪辑之间的时间壁垒,满足“实时”观看的用户需求。

(二)基于表情识别的逻辑取向

从一定程度上说,人的表情代表着他当时的情绪。“根据科学家们的研究,人类有7种基本情感,即快乐、悲伤、愤怒、厌恶、惊讶、恐惧和中性。”[6]人们试图通过量化面部表情特征,实现AI对人类表情的“学习”。

表情识别包括人脸检测、图像预处理、面部特征提取、分类识别,其中面部特征提取是最重要的环节。目前提取面部特征的主流方法,是基于深度神经网络的特征学习法,将视频画面分解成帧,剔除无用的背景信息后利用训练好的模型提取人物面部特征,将抓取的面部特征与7种基本情感串联后,通过分类识别得到面部表情识别结果。[7]

表情识别在AI视频剪辑中,可助力预告片和精彩集锦的制作。机器通过分析视频中每一帧的人物表情,梳理人物表情和人物情绪之间的关系,配合场景、对话、转折、视觉变化、音频变化、人物反应等内容形成情绪指数,并以此为依据挑选出“高亮”片段。 [8]由于预告片和精彩集锦对前后情节逻辑要求不高,机器将“高亮”片段添加转场重组后即可生成。

2016年IBM Watson在剪辑师的辅助下,学习了100部相关影片,掌握这些片段对应的人类情感反应后,制作出全球第一个AI认知电影预告片《Morgan》。[9]此外,IBM AI Vision视觉大脑被应用于NBA体育赛事的报道,利用多模态视觉理解技术,对画面进行人脸、动作、表情、物体等的识别,依据用户及体育编辑设置好的主题和球员等要求,自动生成相关视频。[10]

国内也有类似的应用,2018年世界杯许多精彩集锦的制作,是由阿里巴巴机器智能技术实验室研发的AI智能集锦官“快影”独立完成的。与IBM Watson 相类似,“快影”在学习过去20年世界杯300多场体育赛事的视频数据后,实现了对球员表情、动作等不同维度符号的理解,迅速完成精彩集锦剪辑。[11]

(三)基于声音处理的逻辑取向

对声音的处理这里分为对人物声音的处理和对机器声音的处理两部分。对人物声音的处理,指的是对视频中原本人物声音的识别抓取;对机器声音的处理,指的是利用机器合成声音为视频配音。

AI对人物声音的处理,是利用语音识别抓取视频中的语音文件,在多人物对话视频中,根据声纹特征区分人物身份。 [12]AI目前不仅可以识别人物声音,还能提取人的语音特征,通过深度学习实现机器对人类语音的模仿。深度学习中常见的语音合成方法是端到端语音合成,利用编码器提取说话人物的声音特征,经由解码器输出后声码器将语音波形还原,直接建立起从文本到语音的合成。[13]两种声音处理技术的融合,大大解放了人工配音的生产力。

例如,新华智云推出“声音照相馆”智能语音合成技术,只需录制三句话,机器就可以学习你的声音,并用你的声音有感情地说话。[14]国外也有相关应用,路透社与Synthesia公司合作开发的全自动体育新闻摘要系统,预先拍摄主持人报道每支足球队、每个球员的名字以及比赛中可能发生的每一个动作的语音,并系统拆解分析视频内容,学习主持人的声音及面部细节,建构出演示者的“数字副本”。该系统与比赛现场的实时数据等信息反馈相结合,可以实现在设定的参数范围内播报任何现场报道。[15]

(四)基于文字处理的逻辑取向

文字处理可分为字幕加载与文本转视频两类。

在没有人物区分要求的前提下,字幕的加载可以通过简单的语音转文字技术实现转译。而语音分割技术,可在区分人物身份的同时完成字幕加载。语音分割技术通过对语音中Mel频参数进行算法处理,识别不同人物声音的参数特点,判断出语音段切割点,从而可区分人物身份加载字幕。 [16]

文字转视频是指机器可以根据输入的一段文字,剪辑出相应的短视频。机器人可以完成对输入文字的智能拆条,将大段的文字拆解,通过自动分析语义,识别提取文字中的人物、时间、地点等一些关键词,将其与素材库视频标签匹配,组合生成符合文本内容的短视频。

以“会上网就会剪辑”为口号的智影平台为例,只需输入文本或者文章链接,平台就可以快速匹配素材库中的视频,自动生成与文本相对应的视频,并自动生成配音和字幕,智能添加转场特效,用户不需要具备专业剪辑技巧,也可快速制作短视频。[17]与此类似的还有百度开发的VidPress系统。

国内外也有较多类似的应用,如Lumen5、Rawshorts、Vedia、Wibbitz等。Lumen5平台利用的是自然语言处理技术,识别用户输入文本中的关键词,利用计算机视觉技术匹配相应的视频内容并剪辑成片,用户可以根据自身需求,利用其素材库进行二次加工。Rawshorts平台可以通过ML算法扫描文本,以识别故事的主要概念,按照时间线生成相应内容,同时提供编辑器供用户定制视频。[18] [19]

(五)基于素材整合的逻辑取向

智能素材整合主要是指利用AI将指定内容,添加进固定模板中快速生成新闻短视频的技术。目前AI还不能做到动用蒙太奇叙事手法制作电影电视剧等长视频,但对诸如会议视频报道等模式相对固定的新闻短视频,AI可以在短时间内完成高质量制作。机器人写稿就是典型的模板化新闻生产。

新华智云的智能媒体生产平台MAGIC媒体大脑,以及随后推出的移动版剪辑软件剪贝就是模式化剪辑平台。剪贝内提供有多套新闻视频剪辑模板,如数据新闻报道、突发事件报道、时政新闻报道、体育赛事报道等模板,用户可以根据自身需求选择适合的模板,替换个人或机构信息后将视频素材导入,就可以得到相应的新闻短视频[20]。

媒体大脑包含几十种机器人,多种机器人配合可以完成全自动生成新闻报道。如针对报道模式固定且时效性要求较高的突发性事件,突发识别机器人可以在事故发生的一瞬间,通过对画面要素的识别判断出重要的新闻要素,如“火灾”“浓烟”等,上传到媒体大脑套用新闻模板,即时完成并发布新闻报道。[21]

Magisto是西班牙的一款视频剪辑软件,其功能跟剪贝相似。用户可以录制或者上传视频文件,选择喜欢的剪辑风格和音频,Magisto就可以自动剪辑生成视频。同时Magisto还可以自动分析视频内容,将视频中最精彩的部分剪辑在一起,选择合适的转场效果、滤镜、音乐,短时间内即可完成视频剪辑。

二、AI新闻视频剪辑的应用价值

(一)降低制作成本

传统新闻视频剪辑工作全部由人工承担,无论视频长短,内容是否重复都需要数名甚至数十名新闻工作人员和设备的全程配合,制作成本较高。AI新闻视频剪辑,可以独立完成字幕添加、同类型新闻视频的模板化剪辑报道,还可以在人脸识别、图像识别、深度学习等技术的支撑下,独立完成前期的素材拍摄、中期的剪辑制作与后期的分发报道。一套设备只需配备几名工作人员,就可以保质保量地完成以往几十名工作人员的任务。AI技术对新闻视频剪辑的重构,降低了新闻视频的制作成本。

(二)提高新闻时效性

时效性是新闻报道最基本的要素之一,无论是传统媒体还是新媒体都追求新闻的时效性,时效性在一定程度上代表着受众关注度。传统新闻视频报道受限于素材搜集与视频剪辑的复杂性,新闻报道制作周期较长。AI的应用最大限度地缩短了新闻视频剪辑的时间,如新中国成立70周年国庆阅兵中,AI剪辑每个方队视频的平均耗时为90秒,[22]这对于人工剪辑来说是无法企及的速度。AI的应用使得许多新闻视频几乎可以完成实时报道,极大地提升了新闻报道的时效性。

(三)实现多版本制作

传统新闻视频由于剪辑工作繁琐,几分钟的视频需要几个小时才能完成,一般不会对同一事件的视频素材进行多版本剪辑,报道视角相对单一。AI剪辑系统依托庞大的数据库,具备极强的信息检索能力,视频素材采集完成后,可以在几十秒甚至几秒内完成一版新闻视频的剪辑。只需更改剪辑设置或者关键词,即可生成其他版本的新闻视频。同时人工智能获取的素材,都可以保存在其数据库中作为学习和剪辑的素材,实现素材的再利用与再生产。

(四)推动传统媒体转型

人工智能技术对传统媒体的转型起到了强大的助推作用。AI新闻视频剪辑需要完整的智能设备,设备的开发和购买需要较高的花费。对于一些新媒体及自媒体平台,他们本身具备较好的用户基础,报道的时效性和趣味性较高,从性价比考虑,一般不会选择花费大价钱购置一套智能剪辑设备。而对于传统媒体来说,其本身具备专业性的优势,通过AI新闻视频剪辑设备的引入,报道的时效性和内容的丰富性都会大大提高,同时制作的科技性也会成为吸引用户的亮点,加速传统媒体的融合转型。

三、结语

AI新闻视频剪辑借助人工智能技术,实现对海量视频素材的快速存取,适用于不需要动用蒙太奇叙事手法的剪辑,利用固定模板快速生成新闻视频。AI新闻视频剪辑具备降低制作成本、提高新闻时效性、实现多版本制作、推动传统媒体转型的应用价值,但从性价比角度来说,并不是所有的公司都适用,AI新闻视频剪辑也有一定的局限性。

(作者秦艳系山东大学文化传播学院硕士研究生)

本文研究成果系2019年度国家社科基金项目“智媒时代新闻生产算法风险及其协同治理研究”(19BXW020)的阶段性成果。

参考文献

[1]张超.释放数据的力量:数据新闻生产与伦理研究[M].北京:中国人民大学出版社,2020:215.

[2]王凤梅.电视新闻节目的剪辑技巧[J].青年记者,2011(20):115.

[3]赵强.人脸识别的工作原理是什么?[EB/OL].https://www.zhihu.com/question/20588370/answer/1067805211,2020-03-09/2020-09-29.

[4]华智云.国内首个VLOG机器人,新华智云智造![EB/OL].https://mp.weixin.qq.com/s/fPb1BxlJUqLRVBc3dJ9fDg,2020-06-16/2020-09-29.

[5]ErikMatuszewski.StreamingEveryShotAtThePlayersChampionshipByThe umbers[EB/OL]https://www.forbes.com/sites/erikmatuszewski/2020/03/11/streaming-every-shot-at-the-players-championshipby-the-numbers/#644e2a702f43,2020-03-11/2020-09-30.

[6][7]徐其华,孙波.基于深度学习和证据理论的表情识别模型.计算机工程与科学,2020年10月,网络首发,

http://kns.cnki.net/kcms/detail/43.1258.TP.20200925.1107.002.html.

[8][9]传媒一号.AI视频剪辑,被忽略的短视频幕后推手[EB/OL].

http://www.cm3721.com/kuaixun/8474.html,2019-11-01/2020-10-02.

[10]IBM中国.首支AI实时剪辑的FMVP视频:腾讯体育携手IBM,为1.25亿篮球迷创新观赛体验[EB/OL].

https://mp.weixin.qq.com/s/Mt9_nIr7xfR1DFHnVWgutA,2018-06-11/2020-10-05.

[11]新华网.阿里巴巴集锦官“快影”上任世界杯直播 相比人工效率提升10倍[EB/OL].

http://big5.xinhuanet.com/gate/big5/big5.news.cn/gate/big5/www.xinhuanet.com/tech/2018-07/03/c_1123072254.htm,2018-07-03/2020-10-05.

[12]郭茗涵.基于深度学习的声纹识别算法研究[D].吉林大学,2020:8.

[13]张小峰,谢钧,罗健欣,俞璐.深度学习语音合成技术研究[J].计算机时代,2020(9):24.

[14]新华智云.新华智云携4大新品亮相服贸会[EB/OL].https://mp.weixin.qq.com/s/V4ebNIpBzT6Ml30aqA4iRQ,2020-09-10/2020-10-06.

[15]SimonChandler.ReutersUsesAIToPrototype First Ever Automated  Video Reports[EB/OL].https://www.forbes.com/sites/simonchandler/2020/02/07/reuters-uses-ai-to-prototype-first-ever-automated-video-reports/amp/,2020-02-07/2020-10-06.

[16] 王方丽,傅嘉俊.基于Python的BIC语音分割算法的实现与应用[J].计算机与数字工程,2020(4):764.

[17] 智影.智影-文章转视频:为自媒体人量身定制的短视频剪辑工具[EB/OL].https://www.sohu.com/a/372162647_120071064?_trans_=010004_pcwzy,2020-02-11/2020-10-09.

[18] Ambika Choudhury.Top5 AI-Based Text-To-Video Products[EB/OL].https://analyticsindiamag.com/top-5-ai-based-text-to-video-products/,2019-02-21/2020-10-11.

[19] Akshaya Asokan.Here Are The Top5 AI-Powered Video Editing Tools[EB/OL].https://analyticsindiamag.com/top-5-ai-powered-video-editing-tools/,2019-04-04/2020-10-11.

[20]新华智云.随身带的媒体大脑,“剪贝”来了![EB/OL].https://mp.weixin.qq.com/s/3CqLtEIs2c1xy9AZ3oxe2Q,2020-07-15/2020-10-09.

[21]新华智云.新华智云携4大新品亮相服贸会[EB/OL].https://mp.weixin.qq.com/s/V4ebNIpBzT6Ml30aqA4iRQ,2020-09-10/2020-10-14.

[22] 索贝时代.里程碑!首次AI剪辑大阅兵在央视新闻![EB/OL].https://mp.weixin.qq.com/s/u41je6YIbXiACyQpVvo40w,2019-10-01/2020-10-14.

编辑 瑜文  审读 李诚  审核 刘思敏

免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读
读特热榜
IN视频
鹏友圈

首页