中国科技大学科技商学院讲席教授张捷：“非语音智能听觉”为人工智能加上“耳朵”

深圳特区报

深圳市委机关报，改革开放的窗口

摘要

研发与应用智能听觉的产业目前正在形成

“非语音智能听觉正在成为一个全新的产业化赛道，并且深圳的企业有可能在这个领域领先世界。”6月22日，中国科技大学科技商学院讲席教授、美国国家工程院院士张捷在2024亚布力中国企业家论坛第十届创新年会发表开幕演讲时表示。

张捷介绍，智能的感知包括智能视觉与智能听觉，在视觉领域国内外有大量的企业、独角兽企业、上市公司，语音听觉感知，国内国外大量的企业也做得非常出色，但是到了非语音听觉感知就比较少，“现在的机器人声音感知方面，主要是看语音，与人对话，但你要给它鼓个掌就麻烦了，就不知道你在说什么，这就是非语音。”

张捷表示，非语音智能听觉，主要是基于声波和振动，仿人用耳朵听，听城市噪音、交通活动、爆炸声等等，也可能是在脚上安装上感应器感觉地下的振动。

“非语音智能听觉和大模型有点不一样，基于物理学比较多，目前很多大模型主要基于数据。”张捷说，智能听觉是基于数据以及物理模型，不仅要知道声音在哪儿，还要知道它的特点，有很多物理参数，输入的数据包括声音在空气里传播还有地下的振动数据，还有视频数据，包括真实的场景等以此训练它们之间的关系。“经过训练以后，知道了声音振动和场景的关系，比如背后有个小孩跑，你就能够预测出来，这是一个小孩跑，他在我背后五米远的地方，可以输出很多参数，包括信号源的位置，如果它在移动，它移动的速度和形状、大小、尺寸等等，以及信号源和传感器之间介质可能也在变化，也能感应出来。”

“根据声音和振动，人闭上眼睛就能听出来背后这个世界在干什么。”张捷介绍，声波是在空气和液体里传播的波，弹性波是在实体里传播的波，非语音听觉感知的范围，就是在记录声波和弹性波，“这两者之间结合起来很有特点，比如说话的声音，20米以后就衰减没了，跑步的振动可能在一百多米甚至到两百米都可能监测到地动。”

“很多人说，做这个东西就不需要视觉了，其实不是这样，我们是在补充耳朵，原来人工智能没有耳朵，只是凭着眼睛，忽视了耳朵。智能视觉与智能听觉结合将完善高效率的感知能力。”张捷表示，研发与应用智能听觉的产业目前正在形成，应用领域在国内已经是多个万亿市场，比如交通、安防、监控等等。

编辑温静审读匡彧二审党毅浩三审唐光明