近日,清华大学智能产业研究院(AIR)团队在 npj Artificial Intelligence 发表题为《Human and algorithmic visual attention in driving tasks》的研究。该研究围绕自动驾驶这一安全关键场景展开,首次通过“人类眼动追踪实验 + 算法对比验证”的双轨设计,系统拆解了人类与算法在视觉注意力上的本质差异。研究采用了3×3×2混合实验设计,招募36名驾驶员(18名专家、18名新手),并结合眼动数据对驾驶注意力进行阶段划分,最终提出人类驾驶注意力可分为扫描、检查、重新评估三个阶段,其中“检查阶段”的语义注意力,是提升算法性能的关键入口。

在该研究中,清华AIR团队基于北京七鑫易维信息技术有限公司的aSee Pro桌面式眼动仪完成了关键的眼动数据采集。在异常检测任务中,研究招募了5名驾驶员,并通过 aSee Pro以 250Hz 采样率进行全程记录,为后续的注意力阶段划分、注视轨迹建模以及人类与算法注意力相关性分析提供了稳定的数据基础。对于这类对时间分辨率与空间精度要求极高的研究而言,眼动设备的作用并不止于数据记录本身,其精度与稳定性直接影响注意力结构的可解析程度,也在很大程度上决定了相关分析结果的可靠性。

论文的核心发现之一,是驾驶任务中的人类注意力并不是单一连续过程,而是具有清晰的阶段结构:扫描阶段以自下而上的空间搜索为主,检查阶段以对 AOI 特征和语义的评估为主,重新评估阶段则体现出任务驱动下的混合注意力。研究结果显示,专家和新手在检查阶段表现出显著差异,例如专家检查阶段时长达到 705.75ms,高于新手的 622.52ms。也就是说,人类驾驶中的“看见”,并不只是看到了什么位置,更重要的是看懂了什么语义。这个结论之所以能够被清楚地量化出来,关键就在于眼动数据足够细、足够稳,才能把这种原本难以观察的认知过程转成可分析的行为证据。

研究进一步验证了一个更重要的问题:算法虽然在空间定位上有优势,但在语义显著性提取上仍存在明显短板。团队将不同阶段的人类注意力融入 AxANet、UniAD、VAD、DriveLM、TOD³Cap 等模型后发现,检查阶段注意力带来的提升最稳定,也最显著。例如,AxANet 在异常检测任务中,融入检查阶段注意力后,准确率从 0.724 提升到 0.736;而将扫描阶段注意力融入后,准确率反而下降到 0.709。轨迹规划任务中,UniAD 的平均 L2 误差从 0.90m 降至 0.82m,VAD 的碰撞率也出现下降。相较之下,大模型在高维推理任务中并未明显受益,而在细粒度视觉接地任务中则仍能看到语义注意力带来的提升。这些结果共同说明,真正能补上算法缺口的,不是简单模仿“看哪里”,而是补入“为什么看、看到了什么意义”的语义注意力。


在这项研究中,七鑫易维 aSee Pro眼动仪的是作为数据采集与分析的基础模块自然嵌入其中。论文中的三阶段注意力划分、伪人类注意力生成以及模型验证流程,本质上都依赖于稳定、精细的眼动数据支撑。高采样率与高精度记录,使研究得以从注视点坐标、AOI 时序、注视时长等多个维度刻画专家与新手差异,并进一步转化为算法优化的依据。这也意味着,设备并非简单“出镜”,而是参与到研究方法本身。
从产品体系来看,以 aSee Pro与 aSee Pro Plus(1500hz)系列为核心,结合 aSee Glasses、aSee VR、aSeeA8、aSee Pad、aSee Expert(2000hz) 等不同形态设备,七鑫易维构建了覆盖科研到多场景应用的完整能力。同时,其能力已从单一设备延展至医疗、教育、车载、XR、沟通辅具等方向的应用方案与数据服务层,逐步形成面向行业的眼动技术解决路径。

如果把这篇 Nature 论文放回到产业视角看,它真正说明的是:眼动追踪已经不再只是心理学或实验室里的辅助工具,而正在成为连接人类认知、算法学习与真实场景决策的重要数据接口。清华AIR团队借助七鑫易维 aSee Pro眼动仪完成的这项研究,把“人类如何看”变成了“算法如何学”的问题,也把眼动数据从单纯的观测变量,推进为能够参与模型优化的语义信号。对于自动驾驶、智能座舱、医学评估和人机交互等领域来说,这类研究的价值不只在论文结果本身,更在于它给出了一个可复制的方法路径:用高质量眼动数据,把人的注意力结构变成算法可用的输入。
因此,这篇论文的意义并不只是“发表了一篇顶刊成果”,而是说明了七鑫易维 aSee Pro 这类科研级眼动设备,已经能够进入国际前沿研究的真实工作流中,参与从数据采集、阶段划分到模型验证的完整闭环。对研究团队而言,它提供的是可靠、可量化的行为数据;对行业而言,它所支撑的,是人类注意力机制向智能算法迁移的更深一步。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。