Google发布了一款名为机器人变形金刚2(Robotics Transformer 2 RT-2)的新型视觉-语言-动作(VLA)模型,并将其称为"同类首创"。据Google称,RT-2能够接受文本或图像输入,并输出机器人动作。
IdS=lN$ _2-fH 该公司表示,训练机器人可能是一项"艰巨的工作",因为它们需要针对世界上的每个物体、环境、任务和情况进行数十亿点数据的训练。不过,Google表示,RT-2为更多的通用机器人带来了巨大的发展前景。
f7lt|.p A`B>fI 虽然该公司对RT-2所能带来的好处感到兴奋,但它表示,要让机器人在以人为中心的环境中发挥作用,还有很多工作要做。DeepMind认为,通用物理机器人可以从VLA模型中产生,它们可以推理、解决问题和解释信息,以执行现实世界中的任务。
Aaw]=8 OI q"48U.}T 顾名思义,这并不是机器人变形VLA模型的第一次迭代。DeepMind表示,RT-2建立在RT-1的基础上,与之前的模型相比,泛化能力有所提高,在新的、未见过的任务上表现更好。
3 <