跟着人工智能技巧的疾速开展,让呆板懂得并履行庞杂的空间义务成为一个主要研讨偏向。在庞杂的 3D 构造组装中,懂得跟履行阐明书是一个多档次的挑衅:从高层的义务计划,到中层的视觉对应,再究竟层的举措履行,每一步都须要准确的空间懂得才能。斯坦福 Vision Lab 最新推出的 IKEA Video Manuals 数据集,初次实现了组装指令在实在场景中的 4D 对齐,为研讨这一庞杂成绩供给了主要基准。名目主页:https://yunongliu1.github.io/ikea-video-manual/开源代码:https://github.com/yunongLiu1/IKEA-Manuals-at-Work配合者指出了这项任务在空间智能研讨中的主要位置:「这项任务将组装计划从 2D 推动到 3D 空间,经由过程懂得底层视觉细节(如部件怎样衔接),处理了空间智能研讨中的一个重要瓶颈。这是首个片面评价模子在实在场景中对精致 3D 细节懂得才能的基准。」著名科技博主、前微软战略研讨者 Robert Scoble:「有了这项任务,呆板人将可能自立组装 IKEA 家具,或许经由过程 AI 驱动的 AR 眼镜。」冲破性的多模态对齐组装一件 IKEA 家具须要懂得多种情势的指令:阐明书供给了义务的团体剖析跟要害步调;视频展现了具体的组装进程;而 3D 模子则界说了部件之间的准确空间关联。IKEA Video Manuals 初次将这三种模态停止了细粒度的对齐:137 个手册步调被依据装置视频细分为 1120 个详细子步调,捕获了完全的组装进程;经由过程 6D Pose 追踪,准确记载每个部件的空间轨迹;在视频帧、家具组装阐明书跟 3D 模子之间树立麋集对应关联。丰盛的家具范例与场景数据集涵盖了 6 年夜类 36 种 IKEA 家具,从简略的凳子到庞杂的柜子,浮现了差别难度的组装义务。每种家具都包括完全的 3D 模子、组装阐明书跟现实组装视频。这些视频来自 90 多个差别的情况,包含室表里场景、差别光照前提,实在反应了家具组装的多样性。实在天下的庞杂性与在试验室情况下收罗的数据比拟,来自互联网的实在视频浮现了更丰盛的挑衅:部件常常被手或其余物体遮挡类似部件辨认(设想一下四条截然不同的桌子腿!)摄像机频仍挪动、变焦,带来参数估量的艰苦室表里场景、差别光照前提下的多样性这些实在场景下的庞杂性,让数据集更能反应现实利用中的难点。风趣的是,研讨团队发明 25% 的家具存在多种无效的组装次序。比方 Laiva 架子就有 8 种差别的组装方法!这种多样性实在地反应了事实天下中组装义务的机动性。体系的标注流程为了取得高品质的标注,应答实在视频带来的挑衅,研讨团队树立了一套牢靠的标注体系:辨认并标注相机参数变更的要害帧,确保片断内的分歧性联合 2D-3D 对应点跟 RANSAC 算法停止相机参数估量经由过程多视角验证跟时序束缚保障标注品质中心义务试验评价基于 IKEA Video Manuals 数据集,团队计划了多个中心义务来评价以后 AI 体系在懂得跟履行家具组装,以及空间推理 (spatial reasoning) 方面的才能:1. 在基于 3D 模子的宰割(Segmentation)与姿势估量 (Pose Estimation)输入 3D 模子跟视频帧,请求 AI 实现两个义务:正确宰割出特定部件地区,并估量其在视频中的 6 自在度姿势。试验测试了最新的宰割模子 (CNOS, SAM-6D) 跟姿势估量模子 (MegaPose)。基于 3D 模子的宰割基于 3D 模子的姿势估量剖析发明它们在以了局景表示欠安:- 遮挡成绩:手部遮挡、近间隔拍摄招致局部可见、遮挡惹起的深度估量偏差- 特点缺掉:缺少纹理的部件难以宰割、对称部件的偏向难以断定- 特别拍摄角度(如仰望)招致的标准误判2. 视频目的宰割 Mask Trackin评价了 SAM2 跟 Cutie 两个最新的视频追踪模子。与其余基准数据集比拟,它们在 IKEA Video Manuals 数据集上表示明显降落:SAM2: 从其余数据集的 85-90% 降至 73.6%Cutie: 从 85-87% 降至 54.7%重要挑衅包含:- 相机活动招致目的丧失- 难以辨别表面类似的部件(如多个雷同的桌腿)- 长时光追踪的正确度难以坚持3. 基于视频的外形组装团队提出了一个翻新的组装体系,包括要害帧检测、部件辨认、姿势估量跟迭代组装四个步调。试验采取两种设置:应用 GPT-4V 主动检测要害帧:成果不睬想,Chamfer Distance 达 0.55,且 1/3 的测试视频未能实现组装,反应 GPT-4V 对组装要害时辰的辨认才能无限;应用人工标注的要害帧:即使如斯,因为姿势估量模子的范围性,终极 Chamfer Distance 仍达 0.33这些试验成果提醒了以后 AI 模子的两个要害范围:1、视频懂得才能缺乏:以后的视频模子对时序信息的剖析依然较弱,每每停顿在单帧图像剖析的层面2、空间推理受限:在实在场景的庞杂前提下(如光照变更、视角转变、部件遮挡等),现有模子的空间推理才能仍显缺乏将来瞻望IKEA Video Manuals 的推出,经由过程研讨怎样将组装指令对齐到实在场景,为空间智能研讨供给了一个主要的评价基准。设想一下,将来你戴上 AR 眼镜,就能看到 IKEA 家具的每个组装步调被清楚地投影在面前,体系还能及时提示你能否装置准确;或许,呆板人可能像人类一样,仅经由过程不雅看视频就学会组装庞杂的家具。IKEA Video Manuals 的推出让这些假想离事实更近了一步。经由过程供给实在场景下的多模态数据,这个数据集为空间智能研讨供给了主要的评价基准。咱们等待看到更多冲破性的停顿,让 AI 体系真正懂得跟履行庞杂的空间义务。作者先容第一作者刘雨浓,斯坦福年夜学盘算机迷信硕士生,附属于斯坦福 SVL 试验室(Vision and Learning Lab),由吴佳俊教学领导。本科结业于爱丁堡年夜学电子与盘算机迷信专业(声誉学位)。曾在得克萨斯年夜学奥斯汀分校从事研讨练习。现在正在寻觅 2025 年春季退学的博士机遇。吴佳俊,斯坦福年夜学助理教学,附属于 SVL 跟 SAIL 试验室。麻省理工博士,清华姚班本科。作为名目领导教学。Juan Carlos Niebles,Salesforce AI Research 研讨主任,斯坦福年夜学盘算机迷信系兼职教学,斯坦福视觉与进修试验室(SVL)结合主任。在盘算机视觉跟呆板进修范畴有出色奉献,曾获多项主要奖项刘蔚宇,斯坦福年夜学博士后研讨员,在 CogAI 组跟 SVL 试验室从事研讨。专一于呆板人感知、建模跟交互范畴,努力于开辟能经由过程简略言语下令实现临时义务的呆板人体系。作为名目独特领导。李曼玲,东南年夜学盘算机迷信系助理教学,曾为斯坦福年夜学博士后,现为斯坦福拜访学者。研讨兴致会合在言语、视觉、呆板人及其社会影响等穿插范畴,努力于开辟可托且实在的多模态体系。参考材料:https://yunongliu1.github.io/ikea-video-manual/本文来自微信大众号:微信大众号(ID:null),作者:新智元告白申明:文内含有的对外跳转链接(包含不限于超链接、二维码、口令等情势),用于通报更多信息,节俭甄选时光,成果仅供参考,IT之家全部文章均包括本申明。 申明:新浪网独家稿件,未经受权制止转载。 -->