前沿聚焦 | ChatGPT 不具备媒体行业的核心能力
2023-07-19 16:50
收录于专题:新传播

□ 刘辉  徐常亮



ChatGPT凭借高质量的文本生成能力和优秀的对话理解能力,成为当下的现象级产品。本文从ChatGPT这种大规模预训练模型的底层结构和技术角度出发,分析其对现有互联网搜索引擎的冲击,对新闻行业和新闻工作者的影响。基于ChatGPT强大的语言理解能力和神经网络自身天然的技术缺陷,讨论如何通过合理利用现有技术促进媒体行业发展、加速媒体融合、推动媒体转型。



【关键词】ChatGPT   大规模预训练模型   媒体融合   机器生成内容   人机协助

一、五年磨一剑:ChatGPT并非从天而降

问:你现在有多火爆?

ChatGPT:随着人工智能技术的不断发展,ChatGPT也在不断完善和升级,吸引了越来越多的开发者和企业关注。ChatGPT目前非常火爆,具有很高的社会关注度和技术价值。

互联网时代的每次入口之争都是最为激烈的厮杀。继新闻门户、搜索引擎、社交产品之后,人工智能时代的入口会是智能音箱、聊天机器人还是物联网?这样的争论有望被ChatGPT终结。ChatGPT基于GPT-3.5架构的大型语言模型并通过强化学习进行训练,以人类自然对话方式进行交互。如官方说明中写道:“通过对话的方式交流,可以连续回答问题,承认自己的错误,挑战不正确的前提,以及拒绝不合理的请求”。正值风头的ChatGPT被网友们不断发掘出各种玩法,可以根据提示生成几乎任何主题的文本,如文章、论文、演讲,还可以编写和调试代码、进行文学创作。截至2023年1月末,ChatGPT月活用户已经突破1亿,这一客户增长速度刷新了消费级应用程序用户增长速度纪录。根据 Sensor Tower的数据,TikTok达到1亿用户用了9个月,Instagram 则花了两年半的时间。各大科技公司如坐针毡,北京时间2月7日凌晨,谷歌CEO Sundar Pichai亲自官宣谷歌下一代对话AI系统Bard正式发布;百度也紧跟官宣项目名字为“文心一言”,英文名ERNIE Bot,三月份完成内测并面向公众开放。

ChatGPT并非从天而降,2018年作为大规模预训练语言模型元年,Google推出了BERT[1],OpenAI推出了GPT-1[2],深度学习领域迎来革命性的变化。随后OpenAI又在2019年和2020年相继发布GPT-2[3]和GPT-3[4],每一代GPT模型的参数量都是爆炸式增长,预估ChatGPT的参数量达到千亿级,预训练的数据量达到百TB级别。GPT-3发布时就因为其优异的通用领域文本生成能力,在业内引起轰动。ChatGPT融入PPO强化学习策略,以更高质量的输出并用对话作为交互形式[5],使其真正出圈成为眼下AI的“顶流”。

二、更直观、更交互:将对搜索引擎带来降维打击

问:你会取代搜索引擎吗?

ChatGPT:随着语言模型不断进步,它们可能在某些方面对搜索引擎产生影响。例如,语言模型可以与搜索引擎配合使用,以提供更快速、更高效的答案。同时,语言模型可以用于搜索引擎前端,提供更直观、更交互式的用户体验。

目前看来,业内认为搜索引擎将会受到ChatGPT的巨大冲击。搜索、推荐、AIGC(自动内容生成)分别对应了用户的三种使用方式。搜索需要用户知道自己想要什么和怎样选择需要的答案;推荐是用户不需要自己知道具体想要什么,但潜移默化地让机器知道自己的各种倾向,然后得到某种层面的满足;AIGC是用户知道问什么然后能快速得到机器给予的答案。当我们在讨论使用方式时,可以看到搜索和AIGC的相似性,但无论在技术层面还是未来的产品层面,ChatGPT都将是对搜索的降维打击。搜索由于其倒排索引的技术特点,强制培养用户将自己的需求转换为关键词形式作为输入,由于其爬虫的技术特点,排序大量的网页链接作为最终输出。这种产品形态在当时的技术条件下,毋庸置疑给生活和工作带来了积极影响,但其本身与人类获取信息最简单的形式——问答却是大相径庭。

早些年谷歌、微软、百度等几大主流搜索引擎公司,也都意识到搜索引擎的局限性,通过构建大规模知识图谱、使用语义理解等技术分析网页,实现对用户输入的直接回答。现有搜索引擎本身已经集成了问答架构,将ChatGPT融入到搜索引擎中并没有太大阻力。微软已经在华盛顿雷德蒙德发布由ChatGPT和GPT-3.5提供支持的全新搜索引擎必应Bing和Edge浏览器。但ChatGPT本身的终极形态可以囊括搜索引擎大部分的功能,随着ChatGPT回答质量不断提升以及对产品落地形式的探索,类ChatGPT产品蚕食搜索引擎大部分市场份额只是时间问题。

三、远非强智能:只在特定任务上或超过人类平均水平

问:你是否会取代新闻工作者?

ChatGPT:语言模型在生成文本方面有了很大进展,但是不太可能完全取代新闻工作者。新闻工作者负责收集、整理和报道新闻,以便向大众提供有关当前事件的信息。这需要许多技能,包括采访技巧、分析技巧、写作技巧等。

每次AI技术的突破都会引起一些质疑:人类是否要被人工智能取代?ChatGPT在文本生成领域如此令人惊叹的表现,自然也会招来议论,是否会取代涉及内容创作最多的媒体工作者。

从人类历史的维度上看,每次生产力的大幅度提升,都带来了人类社会的极大变革。生产关系不断调整,引发部分行业发生质变、老旧行业消失、新型行业不断涌现。进入互联网时代之后,社会迭代开始加速,行业变革不断增多,效率极速提升。现阶段的人工智能技术以深度学习为核心,辅以强化学习、预训练等方法,其实质是一个拟合函数,通过不断输入训练数据、调节神经网络参数,从而找到数据的特征范式。在可预见的未来,只要架构上没有质变的突破,人工智能在特定的领域或者任务上的表现,可能超过人类平均水平,但它离真正强智能还差很远,更不用谈是否会产生自己的思想和意识。现有人工智能技术的自身架构缺陷、领域局限、不可解释、机器偏见等问题,决定了无论是之前研究较深的机器翻译、人脸识别等任务,还是现在更加关注的内容生成领域,人工智能所解决的依旧是模式识别问题。通过对ChatGPT的尝试也能感受到其写作能力令人惊叹,但其输出结果的质量并不能达到专业水平,同时,其生成结果依旧不完全可控,生成过程不可解释。

对于大部分行业而言,人工智能带来的是生产力的提升,人与人工智能并不是非黑即白的存在。人工智能技术可以快速解决行业中重复、低效、非创造性的工作,同时,程序的稳定性可以辅助人类面对复杂事件的决策。人工智能技术就像一把利器,将技术与行业痛点相结合,推动行业的快速发展。行业中的低端工作岗位可能被人工智能取代,但同时又会出现其他新型岗位。使用ChatGPT替代部分写作和编辑工作是完全可行的,比如撰写足球比赛结果的快讯、对文本进行校对,但媒体行业的核心仍然是人类的判断力和创造力。

四、珠联璧合:人机协作带来媒体行业新发展

问:你的出现对媒体行业会产生什么样的影响?

ChatGPT:AI 技术可以加速媒体内容的生产和分发,并使许多观众能够快速获得信息。例如,通过使用 AI 技术,新闻机构可以更快生产新闻报道,并且可以通过自然语言生成技术来生成报道的摘要和预测。

《机器生成内容(MGC)自动化分级》是一项已经立项申报的国家标准,也是全球首个关于内容自动化生产的标准。该标准基于机器能够自动执行并完成内容生成任务的程度,根据在执行内容生成任务中的角色分配以及有无生产场景限制,将机器生产内容自动化程度由低到高分为0级至5级(见表1)。该标准包括内容生产的采集、加工、审核环节,ChatGPT所代表的AIGC就是标准中的内容加工环节。随着自动化等级的上升,生产场景从有限制到无限制,审核、加工、采集三个模块在不同级别实现机器的完全自动化。

为了实现全流程自动化生产,审核其实是最低的要求。ChatGPT的前身GPT-3就因为无法避免歧视、偏见、攻击等内容,而受到很多限制。虽然ChatGPT有了极大的改进,但要商用于新闻媒体,按照MGC标准来评判,也无法满足L3级自动完成审核的要求。因为ChatGPT生产的内容基本属于完全重新组织,可它又不具备事实校验、数理演算等能力,生成的内容尽管防范了很多恶意内容,但可能存在根本性事实偏差。

现阶段,大部分场景的自动化生产依旧处于L2级,少部分场景实现了L3级甚至L4级。新华智云的媒体大脑在2018年俄罗斯世界杯赛中,就已经做到了加工、审核的自动化,以最快6秒生产进球视频的速度,让机器生成的短视频占据了世界杯短视频半壁江山。现阶段自动内容生产多集中在财经快讯、结果快报、突发新闻这类短讯,这类内容因为可以通过可信信源进行采集,并且在加工过程中是基于事实内容的再组织,配合一定的自动化审核手段,可以在相关场景更先实现机器完全自动生产内容。

可以想见,在更多的场景,媒体行业内容生产流程还是更需要人机高度结合。部分流程将由机器自动完成大部分工作,人只需要对最终的结果进行校验即可。比如生产过程中的审核,ChatGPT等算法对文本、图像、视频中的黄暴恐等非法信息进行识别和过滤,对文本中的错别字、语法错误进行检测和纠正,对图像、视频中的地图、旗帜、标志进行检测和处理,但算法无法处理所有类型的审核工作,也无法在各项任务中达到100%正确率,所以依旧需要人来把守最后一道关卡。还有部分流程将由人与机器高度协作来完成,ChatGPT等各类人工智能算法或者产品,作为高效工具融入到内容生产的过程中。比如在加工过程中,使用算法对文本、图片、视频中物体、事件、人脸等信息进行检测和自动标注,促使写作过程中可以极快地查找想要的媒资,采用数字人、语音合成技术丰富生成的内容形式,采用全息投影让用户体验身临其境的新闻现场,甚至可以将各类发布会搬到定制的元宇宙中。

未来的媒体行业将会更加快速、大量地输出内容。无论是某些场景的全自动生产,或者部分场景的高度人机结合生产,都大大缩短了采编发流程所耗费的时间和精力。内容的生产和分发会不断提速,新闻时效的竞争将更加激烈。伴随着硬件的不断改善、网络速度的快速提升,快讯等即时信息的较量将会进入秒级别。快速、平质、多样的内容,将会占据大部分普通人的碎片时间。

随着内容生产速度竞争的白热化,可能忽视对ChatGPT等产品生成内容的把控,使包含违背事实、极端观点的大量假新闻传播出去。而ChatGPT生成内容的质量,让用户越来越难以判断新闻内容的真实性,存在对公共舆论产生负面影响的风险。在大量平质的内容输出到各类渠道的背景下,以内容建设为根本的优质内容输出将更能体现价值,进一步强调了媒体的专业性。因此,发挥媒体人的专业能力,挖掘故事、阐述观点、畅想未来,发挥人的创造力和判断力将输出内容提升层次,方能占领传播的制高点。

五、凤凰涅槃:加速媒体融合推动媒体转型

问:你能为媒体融合、媒体转型做些什么?

ChatGPT:ChatGPT是一个强大的语言模型,可以应用于各种不同的场景,其中包括媒体融合和转型领域。在媒体融合的趋势下,ChatGPT可以作为一个实用工具,帮助企业和媒体组织创建高质量的内容,并通过多种平台和渠道分发。

ChatGPT作为自然语言大规模预训练模型,以单纯的文本作为输入输出。同时,业内不少公司也发布了多模态的大规模预训练模型。比如OpenAI在2021年推出的DALLE[6]和谷歌在2022年推出的Imagen[7],输入一段文字描述即可生成一张符合这段描述的高清图像;META公司在2022年推出的Make-A-Video[8]可以将文字描述转换成视频。可以预见在近几年,就会有图像、视频甚至多模态相结合的ChatGPT产品出现,输出的内容不单是文本而是文配图、文配视频、三维场景等多种形式,这种多模态的输出更加符合当下的传播需求。多模态预训练模型的出现会大大加速媒体融合进程,从内容生产上推动传统媒体的转型。

在人机结合的生产流程中,用户可以快速制作内容并通过技术的加持,将输出的内容自动适配各类平台或者渠道,比如以文字、图片形式分发纸质媒介,以文字、视频形式分发互联网PC端,以H5页面形式分发微信端小程序,以三维场景形式分发到VR、AR设备上,这种适配与分发完全可以通过机器全自动完成。


六、科技向善:亟需健全相关监管法规

问:如何监管你?

ChatGPT:AI 模型像我这样的存在是人类的创造物,因此我们的使用需要遵循道德和法律的规定。OpenAI 将始终遵循所有适用的道德和法律规定,并采取技术措施以防止滥用。

《科学》明确禁止将ChatGPT列为合著者,且不允许在论文中使用ChatGPT所生成的文本;《自然》则表示可以在论文中使用大型语言模型生成的文本,但不能将其列为论文合著者。学术期刊对ChatGPT的担忧主要集中在安全问题和责任归属问题。犹如自动驾驶的伦理问题——自动驾驶车辆的责任主体是人还是自动驾驶系统,ChatGPT也存在同样的情况——输出的文本是使用人的观点还是ChatGPT自身的观点。毋庸置疑的是ChatGPT的使用绝不可以游离于监管之外,建立健全文本自动生成工具相关的法律法规及道德基础,是ChatGPT进入商业运营阶段的关键所在。

另一方面,ChatGPT模型的基础结构——神经网络天然存在局限,一是神经网络的不可解释性,神经网络中的表示,并不是真正与任何可解释的事物相对应的“符号”,而是分布的、相关的和连续的数值,它们本身并不意味着任何可以在概念上解释的东西。神经网络的不可解释性,导致当ChatGPT对某一个问题出现了非预期的回答时,其无法针对该问题通过调整模型来解决,只能使用后置的模块去拦截或者修补。二是训练数据带来的非法信息与偏见。语言模型需要使用TB(太字节)级的文本数据进行预训练,现有的数据是从网络中爬取且没有经过人工审核来源的众多文本。这些数据中免不了包含一些非法内容,如色情、暴力、恐怖主义等,同时也会包含存在偏见观点的文本,如种族偏见、性别歧视、政治争议内容。其中大部分黄暴恐等非法内容可以通过一些文本分析、内容理解算法,在数据收集过程中进行过滤或者在ChatGPT输出时进行拦截。但偏见型观点由于其表达隐晦需要更深层次的语义理解才能进行识别,在很多情况下算法并不能有效地完成此类任务。ChatGPT的安全、合法使用仍然需要多方共同努力。

作者刘辉系新华智云科技有限公司算法专家

作者徐常亮系普林斯顿大学博士、新华智云科技有限公司CEO

参考文献

[1]Devlin J,Chang M W, Lee K, et al.Bert: Pre-training of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:1810.04805, 2018.

[2]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J].2018.

[3]Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J].OpenAI blog, 2019, 1(8):9.

[4]Brown T,Mann B,Ryder N,et al.Language models are few-shot learners[J].Advances in neural information processing systems, 2020, 33: 1877-1901.

[5]Ouyang L,Wu J,Jiang X,et al.Training language models to follow instructions with human feedback[J].arXiv preprint arXiv:2203.02155, 2022.

[6]Ramesh A,Pavlov M,Goh G,et al.Zero-shot text-to-image generation[C]//International Conference on Machine Learning. PMLR, 2021:8821-8831.

[7]Saharia C,Chan W,Saxena S,et al. Photorealistic text-to-image diffusion models with deep language understanding[J]. arXiv preprint arXiv:2205.11487, 2022.

[8]Singer U,Polyak A,Hayes T,et al.Make-a-video:Text-to-video generation without text-video data[J].arXiv preprint arXiv:2209.14792, 2022.


实习编辑 吴昕圆  审读 李 诚   审核 刁瑜文

免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读
读特热榜
IN视频
鹏友圈

首页