“非语音智能听觉正在成为一个全新的产业化赛道,并且深圳的企业有可能在这个领域领先世界。”6月22日,中国科技大学科技商学院讲席教授、美国国家工程院院士张捷在2024亚布力中国企业家论坛第十届创新年会发表开幕演讲时表示。
张捷介绍,智能的感知包括智能视觉与智能听觉,在视觉领域国内外有大量的企业、独角兽企业、上市公司,语音听觉感知,国内国外大量的企业也做得非常出色,但是到了非语音听觉感知就比较少,“现在的机器人声音感知方面,主要是看语音,与人对话,但你要给它鼓个掌就麻烦了,就不知道你在说什么,这就是非语音。”
张捷表示,非语音智能听觉,主要是基于声波和振动,仿人用耳朵听,听城市噪音、交通活动、爆炸声等等,也可能是在脚上安装上感应器感觉地下的振动。
“非语音智能听觉和大模型有点不一样,基于物理学比较多,目前很多大模型主要基于数据。”张捷说,智能听觉是基于数据以及物理模型,不仅要知道声音在哪儿,还要知道它的特点,有很多物理参数,输入的数据包括声音在空气里传播还有地下的振动数据,还有视频数据,包括真实的场景等以此训练它们之间的关系。“经过训练以后,知道了声音振动和场景的关系,比如背后有个小孩跑,你就能够预测出来,这是一个小孩跑,他在我背后五米远的地方,可以输出很多参数,包括信号源的位置,如果它在移动,它移动的速度和形状、大小、尺寸等等,以及信号源和传感器之间介质可能也在变化,也能感应出来。”
“根据声音和振动,人闭上眼睛就能听出来背后这个世界在干什么。”张捷介绍,声波是在空气和液体里传播的波,弹性波是在实体里传播的波,非语音听觉感知的范围,就是在记录声波和弹性波,“这两者之间结合起来很有特点,比如说话的声音,20米以后就衰减没了,跑步的振动可能在一百多米甚至到两百米都可能监测到地动。”
“很多人说,做这个东西就不需要视觉了,其实不是这样,我们是在补充耳朵,原来人工智能没有耳朵,只是凭着眼睛,忽视了耳朵。智能视觉与智能听觉结合将完善高效率的感知能力。”张捷表示,研发与应用智能听觉的产业目前正在形成,应用领域在国内已经是多个万亿市场,比如交通、安防、监控等等。
编辑 温静 审读 匡彧 二审 党毅浩 三审 唐光明