专栏 | 张捷院士：为机器人补充“耳朵”，开启产业新赛道

发布时间：2024-07-03 浏览次数：204

【编者按】

近日，中国科学技术大学科技商学院讲席教授、美国国家工程院院士张捷出席2024亚布力中国企业家论坛第十届创新年会并发表开幕演讲。

在演讲中，张捷院士围绕“非语音智能听觉”的基础科学问题及其产业化问题展开了深入分析解读。在张捷看来，做听觉的目的不是要取代视觉，而是希望大模型能像人一样，同时具备“视”与“听”，为更多领域创造更多价值。

张捷表示，在机器视觉领域，国内外的独角兽企业和上市公司很多，赛道拥挤；而在非语音智能听觉领域，一切才刚刚起步。

张捷认为，“非语音智能听觉”正成为一个全新的产业化赛道，其应用场景已遍布交通、安防、新能源等各个领域，在国内可应用于多个万亿市场。

本文主体内容根据张捷院士亚布力论坛演讲实录删节整理，“科技商业观察”专栏第4期全文刊登发布。

中国有句古话叫“眼观六路，耳听八方”，说的就是人类的感知能力，而智能的感知就应该包括智能视觉与智能听觉。

此前的人工智能只有“眼睛”和语音对话，却没有能听环境的“耳朵”，感知系统并不完善。

举个例子，现在的机器人在声音感知上，主要依赖与人对话的“语音”进行辨识，但你要是给它鼓个掌，它就听不懂了。

非语音智能听觉刚刚起步

在视觉领域，国内外的独角兽企业和上市公司很多，赛道拥挤；而在非语音智能听觉领域，一切才刚刚起步。

非语音智能听觉基于物理学和大数据，模仿人类用耳朵去“听”。我们希望它在1-2秒内就能迅速做出反应，否则就称不上“智能”。

除了能监测到城市活动、交通活动、爆炸声等声音，智能听觉还能感知到人的耳朵听不见的声波和弹性波。比如，在脚上安装上感应器，机器人就能快速感知到一公里以外发生的车祸。所谓人工智能的“听觉”，就是基于声音和振动信号，弥补机器人缺失的感知能力。

非语音智能听觉主要是建立基于物理学的多模态大模型，我们不仅要知道声源在哪里，还要知道其他的物理属性，进而掌握更多的声源特征。对于真实场景下空气里传播的声音数据、地下的振动数据、视频数据等，我们设计模型，训练学习它们之间的关系。

一个事件的多种数据，可以采用传统的人工智能信号处理方法做预处理，但进一步的事件检测以及各种特性分析就涉及到物理学知识。这是非语音智能大模型的不同之处，它同时基于大数据和物理学。

比如，一个人转过头，看到背后有个小孩在跑。经过训练以后，我们掌握了小孩跑的场景与其声音振动的关系，然后背对着小孩，从声音震动也能够预测出跑动小孩的位置与速度等物理参数。

这个大模型不仅能输出很多参数，知道信号源的位置，当它在移动时，它的移动速度、形状、大小、尺寸及信号源和传感器之间的介质可能也在变化，而这些变化，新的大模型都能感应出来。

基于物理学和数据的大模型，凭借声音和振动，能让人即便闭上眼睛，也能听出背后的世界在干什么。这也是我们现在的机器人要补足的东西。我们做听觉的目的不是要取代视觉，而是希望大模型能像人一样，同时具备“视”与“听”，为更多领域创造更多价值。

基于物理学的大模型

非语音智能听觉应用场景广阔

以真实的交通场景录像为例。汽车在行走，我们一边录着像，同时在路边放着地震仪和声音监测设备。监测到声音的信号，以及波在地下传播的信号，大模型就开始学习它们之间的关系。掌握了这些关系以后，即便没有录像，也可以听出路面上的车型大小、车的行驶车道、行驶速度甚至车重，就连路面下的裂缝与结构变化也能听得出来。

20HZ-2000HZ是可听见的声波，听不见的次声波含有更多的信息，而且衰减非常慢，所以传播得非常远，几公里外都可以听到。声波是在空气和液体里传播的波，弹性波是在实体里传播的波，非语音听觉感知的范围就是在记录声波和弹性波。弹性波在地下的介质里也会传播得非常快，而且衰减慢，这样一来，它就有大量源的信息。

简单来说，当一个设备可以接收声波和弹性波的信号，将两者结合起来，它就会很有特点。比如，说话的声音在20米以外，就衰减没了；而跑步的振动，在一百多米甚至到两百米都可能监测到地动。

科学的基础涉及到地震学，地震学有140年历史。如果空气中有一个源产生振动，在空气里接收的是声波，到地下就变成地震波。

地震波是由地震震源向四处传播的振动,指从震源产生向四周辐射的弹性波。按传播方式可分为纵波（P波）、横波（S波）（纵波和横波均属于体波）和面波（L波）三种类型。P波就是振动的方向和传播的方向一致；S波就是振动方向和传播方向垂直往前走；面波沿着地表振动，它还包括勒夫波、瑞利波等。

这些波完全可以被记录到，我们再对它们进行分解，就可以推断波源、车型大小、行驶情况等多个物理信息。

过去地震仪研究的是3-8级地震，因为这是人体可感知的。近些年，为了预测地震，大家开始研究0-3级地震。由于石油产业是用地震的方法找石油（已有70多年历史），石油勘探工业又把震级的下限推到了-5级。

-3级地震，类似于桌上的茶杯掉到大理石的地上摔碎了，在200米外，能接收到它的声音和振动信号。

-5级地震，类似于将一根铅笔掰断，产生的声音和振动在200米外也能监测到。

工业上的页岩气在-2级到-5级的范围内，可以监测注水压力、找到石油，这在工业应用上已经非常成熟。

但在-5级到-1级这一领域，振动量的级别非常多，包括汽车、飞机等各种生活场景。如果能够完成对该领域关于“振动”的解析，那么它的应用范围就会更广。过去这一想法不太可能实现，但现在随着人工智能的出现，大模型可以对声音进行全自动的解析。

说到关键性的科学技术问题，这些年我们团队一直在解决“声音”和“振动”的问题。比如，去噪、事件检测、相位拾取等，利用地动仪记录声音（压力波）和振动（弹性波）信号，并通过5G实时传输，再应用人工智能实时处理与解释数据。

欧洲在疫情期间，就通过地动仪来监测疫情期间的封城情况、城市的活动情况等。最近，欧洲的足球赛也是用地动仪来监测观众在场馆里的振动情况，避免共振情况。

机器人非语音智能听觉，在居家、交通、公共场所、工作场所都有很多应用场景。在居家方面，它可以监测老人的身体健康与风险，可以预测电梯运行风险。在交通领域，它可以实现全程交通数字化，揭示每日道路下的构造变化，提示桥梁的振动发生变化。

以交通场景为例，现有的交通领域有摄像头、毫米波雷达等，但它面临的困境就是，安装视频雷达设施成本昂贵，摄像头便宜，但龙门架要求的质量非常高，要经得起八级大风、八级地震，成本动辄上百万，所以不能安装很多。当视觉覆盖不够，盲区就多；然而当视觉覆盖足够多，要是数据量太大，实施智能化又比较难。检测路下结构难以智能化；设备繁多，难以配套运行。这是中国目前智慧交通的痛点。

针对上述痛点，我们提出方案：采取智能听觉大模型，用地动仪进行5G传输、远程计算，就可以监测车流、车速、车重、路面、路下，还能监测行人、抛物、骤停、爆胎等行为。

这是在合肥的一条高速公路上监测到的画面，左边的每一条线就是每一个车行进产生的振动数据，从线上我们可以解译出它行驶在第几车道，车型车速、异常驾驶行为，以及重量等信息。

交通领域进行数字化以后，我们通过振动就能够量化车辆违规、异常行驶、交通事故及高风险事件。右侧下图是交通部门在做实验，把安全锥往地下扔，模拟车辆抛洒物，记录这个行为所产生的振动。

再从路面来看，在下雨结冰的路况下，轮胎和地面接触的声音发生了变化。这是2023年12月的交通实测结果，纵轴表示沿着公路布设的地动仪位置，横轴表示时间。一旦开始下雨打滑，画面就会出现黄色，冰雪融化的时候，画面出现的黄色比较多，意味着此时路面容易产生较大的轮胎打滑风险。大模型还能量化路面结冰对行车的影响。比如，我们在哈尔滨的冬夜里泼水，测试结冰过程中，行车振动的变化，量化车轮打滑的风险。

如果在开车行驶的路面前方，地面出现裂缝或者坑坑洼洼，那么在振动上就会接收到非常明显的信号。公路下面看不见的结构变化，也可以通过灵敏的地动仪进行监测。以车作为信号，地动仪可以用地球物理学的方法，实时反推地下结构的变化。