谷歌引入新的人工智能方法来开发先进机器人
谷歌 DeepMind 机器人团队推出了基于大语言模型 (LLM) 的新型人工智能系统,以帮助开发更好的多任务机器人供我们日常使用。
这家科技巨头推出了 AutoRT、SARA-RT 和 RT-Trajectory 系统,以提高现实世界的机器人数据收集、速度和泛化能力。
“我们宣布了机器人研究的一系列进展,使我们离这个未来又近了一步。AutoRT、SARA-RT 和 RT-Trajectory 建立在我们历史悠久的机器人变形金刚的基础上,旨在帮助机器人更快地做出决策,更好地理解和导航他们的环境,”谷歌 DeepMind 团队在一份声明中表示。
AutoRT 利用大型基础模型的潜力,这对于创建能够理解人类实际目标的机器人至关重要。
谷歌表示,该团队表示,通过收集更多体验式训练数据,AutoRT 可以帮助扩展机器人学习,更好地训练机器人适应现实世界。
AutoRT 结合了大型基础模型(例如 LLM 或视觉语言模型 (VLM))和机器人控制模型(RT-1 或 RT-2),创建了一个可以部署机器人在新环境中收集训练数据的系统。
“在七个月的广泛现实世界评估中,系统在各种办公楼中同时安全地协调了多达 20 个机器人,总共多达 52 个独特的机器人,收集了多样化的数据集,其中包括 6,650 个独特任务的 77,000 次机器人试验,”团队告知。
机器人变压器 (SARA-RT) 系统的自适应鲁棒注意力 (SARA-RT) 系统将机器人变压器 (RT) 模型转换为更高效的版本。
“在提供简短的图像历史记录后,最好的 SARA-RT-2 模型比 RT-2 模型准确率高 10.6%,速度快 14%。我们相信这是第一个可扩展的注意力机制,可以在不损失质量的情况下提供计算改进。”DeepMind 团队说道。
当团队将 SARA-RT 应用于具有数十亿参数的最先进的 RT-2 模型时,它可以在各种机器人任务中实现更快的决策和更好的性能。
另一种模型称为 RT-Trajectory,它会自动添加描述训练视频中机器人运动的视觉轮廓。
RT-Trajectory 获取训练数据集中的每个视频,并在执行任务时将其与机器人手臂夹具的 2D 轨迹草图叠加。
谷歌表示:“这些轨迹以 RGB 图像的形式,在模型学习机器人控制策略时为模型提供了低级、实用的视觉提示。”
当对训练数据中未见的 41 项任务进行测试时,由 RT-Trajectory 控制的手臂将现有最先进 RT 模型的性能提高了一倍多:它的任务成功率为 63%,而普通机器人的任务成功率为 29%对于 RT-2。
“RT-Trajectory 还可以通过观看人类对所需任务的演示来创建轨迹,甚至接受手绘草图。而且它可以轻松适应不同的机器人平台。”该团队表示。
版权声明:本文由用户上传,如有侵权请联系删除!