来源:量子位 | 原文链接
120分钟长视频一边看一边记
量子位 | 公众号 QbitAI
在机器人、自动驾驶、AR等真实场景中,空间理解从来都不是“看一眼图像”就能解决的问题。
相机持续移动、视角不断变化、目标时隐时现,空间信息从来不是明确且集中的,而是往往分散在长时间视频流里,模型不仅要“看得见”,更要“记得住、连得起来、还能持续更新”。
这使得流式空间智能成为多模态大模型迈向真实世界应用的一道关键门槛。
这篇文章的出发点是思考:多模态Agent如何在动态变化的世界中持续更新自己,而不是每次都像第一次看见世界。
真实世界不是一张静态图片,也不是一段固定长度的视频,而是一段持续展开的经验流。
正如人理解空间,也不是一次性看完整个房间,而是在移动、观察、遗忘、修正中,逐渐形成稳定的空间记忆。
近日,由清华大学博士生刘芳甫担任一作,联合多位研究者共同完成的Spatial-TTT,被计算机视觉顶级会议ECCV 2026正式接收。
ECCV与CVPR、ICCV通常并称为计算机视觉三大顶级会议,每两年举办一届,用率常年偏低。
对于一项工作而言,入选ECCV不只是多了一个会议标签,也意味着它需要在研究问题、方法创新与实验完整性上接受严格的同行评审。
Spatial-TTT瞄准的,正是多模态模型从“看懂画面”迈向“理解真实空间”过程中一个尚未解决的核心问题:
当视频不断延长,模型能否不依赖无限膨胀的上下文,而是在观看过程中,持续形成并更新自己的空间记忆?
实验中,仅有2B参数的Spatial-TTT,在论文测试的多个专项空间智能基准上超过GPT-5、Gemini-3-pro等闭源模型,并能够处理最长120分钟的流式视频。
它所给出的答案可以概括为一句话:
让模型不只是看视频,而是在观看过程中,边看、边更新、边“长出”一份空间记忆。
空间智能的难点,从来不只是“把上下文做长”,而是空间信息该如何在时间维度上被选择、组织、保留下来。
在真实场景中,模型面对的是一段持续涌入的视觉流:
相机移动会改变视角,遮挡会打断观察,物体的显隐又会让关键证据散落在相距很远的时刻。
现有方法尝试过引入深度信息、多视角输入、空间专项微调数据,乃至训练专用空间模型,但大多仍局限于单张图像或短视频片段,很难扩展到真实应用中动辄几十分钟、几小时的长时程流式视频。
更进一步看,问题的核心并不只是模型”窗口不够长”,而是它缺少一种机制,能在推理过程中不断把新观察吸收进内部状态,再把这些状态组织成一份可供后续调用的空间记忆。
传统的静态推理范式很难解决这一点,而TTT恰好提供了另一种可能:让模型在推理时边看边更新参数,用参数本身的变化来承担记忆功能。
为应对上述挑战,研究团队提出Spatial-TTT,将fast weights作为一种紧凑的非线性记忆,在处理视频流的同时进行在线更新,不断累积跨时间的3D空间证据。



还没有评论,来说两句吧...