中国科技大学科技商学院讲席教授张捷:“非语音智能听觉”为人工智能加上“耳朵”

深圳特区报记者 林捷兴 文/图
2024-06-22 15:37

深圳特区报

深圳市委机关报,改革开放的窗口

摘要

研发与应用智能听觉的产业目前正在形成

“非语音智能听觉正在成为一个全新的产业化赛道,并且深圳的企业有可能在这个领域领先世界。”6月22日,中国科技大学科技商学院讲席教授、美国国家工程院院士张捷在2024亚布力中国企业家论坛第十届创新年会发表开幕演讲时表示。

张捷介绍,智能的感知包括智能视觉与智能听觉,在视觉领域国内外有大量的企业、独角兽企业、上市公司,语音听觉感知,国内国外大量的企业也做得非常出色,但是到了非语音听觉感知就比较少,“现在的机器人声音感知方面,主要是看语音,与人对话,但你要给它鼓个掌就麻烦了,就不知道你在说什么,这就是非语音。”

张捷表示,非语音智能听觉,主要是基于声波和振动,仿人用耳朵听,听城市噪音、交通活动、爆炸声等等,也可能是在脚上安装上感应器感觉地下的振动。

“非语音智能听觉和大模型有点不一样,基于物理学比较多,目前很多大模型主要基于数据。”张捷说,智能听觉是基于数据以及物理模型,不仅要知道声音在哪儿,还要知道它的特点,有很多物理参数,输入的数据包括声音在空气里传播还有地下的振动数据,还有视频数据,包括真实的场景等以此训练它们之间的关系。“经过训练以后,知道了声音振动和场景的关系,比如背后有个小孩跑,你就能够预测出来,这是一个小孩跑,他在我背后五米远的地方,可以输出很多参数,包括信号源的位置,如果它在移动,它移动的速度和形状、大小、尺寸等等,以及信号源和传感器之间介质可能也在变化,也能感应出来。”

“根据声音和振动,人闭上眼睛就能听出来背后这个世界在干什么。”张捷介绍,声波是在空气和液体里传播的波,弹性波是在实体里传播的波,非语音听觉感知的范围,就是在记录声波和弹性波,“这两者之间结合起来很有特点,比如说话的声音,20米以后就衰减没了,跑步的振动可能在一百多米甚至到两百米都可能监测到地动。”

“很多人说,做这个东西就不需要视觉了,其实不是这样,我们是在补充耳朵,原来人工智能没有耳朵,只是凭着眼睛,忽视了耳朵。智能视觉与智能听觉结合将完善高效率的感知能力。”张捷表示,研发与应用智能听觉的产业目前正在形成,应用领域在国内已经是多个万亿市场,比如交通、安防、监控等等。

编辑 温静 审读 匡彧 二审 党毅浩 三审 唐光明

(作者:深圳特区报记者 林捷兴 文/图)
免责声明
未经许可或明确书面授权,任何人不得复制、转载、摘编、修改、链接读特客户端内容
推荐阅读

读特热榜

IN视频

鹏友圈

首页