RT-2面世,机器人软件系统再迭代!

发布时间:2024-05-21 09:38:24 浏览量:146次

RT-2面世,机器人软件系统再迭代!

Google DeepMind发布了新的Robotic Transformer 2(RT-2),这是一种视觉-语言-动作(VLA)模型,可以将知识转化为机器人控制的通用指令。

RT-2建立在Robotic Transformer 1(RT-1)的基础上,通过多任务演示训练,展现出超越机器人数据的泛化能力。

RT-2以VLM为基础,实现了对机器人的控制,通过Pathways Language and Image model (PaLI-X)和Pathways Language model Embodied (PaLM-E)的支柱。

相比之前的模型,RT-2的泛化性能大幅提高,Google DeepMind进行了大量机器人试验并展示了优秀的机器人策略。

多模态快速发展,更多应用场景

从VLM到VLA,主要进展在于将机器人动作指令直接作为模型token输出,省去了VLM模型将输出的指令翻译成底层控制信号的步骤。

RT-2表明VLM可以转化为强大的VLA模型,通过PaLI-X和PaLM-E带来了高度改进的机器人策略和更好的泛化性能。

ViT模型将语言模型的transformer架构用于视觉模型,统一了CV和NLP的架构。2020年,谷歌推出Vision Transformer(ViT)模型,证明了直接将Transformer结构应用于视觉模型的成功。

产业节奏展望

机器人软件模型算法不断提升,有望加速提升通用机器人与行业机器人的可能性,带动下游需求产生。

行业机器人分为工业机器人、服务机器人和特种机器人,将有望广泛应用于各个行业领域。

行业机器人的发展将加速行业智能化进程,多模态GPT的快速发展助力机器人在交互、规划、泛化和感知能力方面提升。

报告总结

火星时代教育认为机器人软件系统迭代加速,将推动机器人应用在各个行业领域。我们期待在未来几年内看到机器人在智能家居、通用机器人、虚拟现实等领域的应用。

风险提示

机器人技术迭代不及预期风险:若机器人技术迭代不及预期,则可能对产业链相关公司造成不利影响。

经济下行超预期风险:宏观经济景气度下行可能影响整个产业链的发展和增长。

行业竞争加剧风险:行业内竞争加剧可能会对企业增长产生威胁。

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定