人形机器人控制,人形机器人动作编程
chanong
|宅晓晓发布人:奥飞斯量子比特| 公众号QbitAI
如果让GPT-4 控制人形机器人而不需要任何事先编程或培训,你能做什么?
答案是“我太好奇了!”
不,机器人被要求“在黑暗的电影院里疯狂吃爆米花,却突然意识到它吃的食物属于隔壁的陌生人”。
在GPT-4的控制下,机器人的笑容凝固了,它转过身来,尴尬地摇了摇头。
不过你害羞的时候也没忘记再抓一把塞进嘴里吧?
或者就像要求机器人弹吉他一样。
GPT-4想了想,然后控制了机器人,活动了一下手指,猛烈地摇了摇头。这感觉有点像摇滚乐。
但如果你仔细观察,你就会发现,即使你摇头,你的手指也根本没有动……
如果你要说这是魔摊老师算出来的,那似乎也没什么错(手动狗头)。
操作顺序总结为——
相比于波士顿动力公司的人形机器人,所有动作都由人类程序精心控制,并由GPT-4直接控制,该机器人表情凶猛,动作怪异,但所有操作都满足敏捷性的要求。
一系列GPT-4控制机器人的视频被发布到网上后,不少网友大呼“恐怖谷效应”。
即使是拥有20 年经验的机器人专家也感到害怕。
我被这些动作吓坏了。你能亲眼看看这有多美吗?
有网友调侃:“他在舞台上跟我一模一样”。
不过,也有网友认为,通过GPT-4来控制人形机器人,简直不可思议。
这是东京大学和日本Alternative Machine Company 首次对由GPT-4 驱动的人形机器人进行研究。
研究表明,用户不需要提前对机器人进行编程,只需要语言输入,即与GPT-4聊天一会儿,机器人就可以按照指令完成动作。
让我们来看看这项研究的细节及其背后的基本原理。
这款人形机器人Alter3是一种新的尝试,以GPT-4为大脑打造大型模型+机器人,无需编程或训练。这款人形机器人还能做出哪些令人皱眉却又理性的动作呢?
为什么不给出指示并让Alter3 假装呢?
它知道如何瞬间进入场景,嘴巴张得大大的,双手伸到身前。
但不知道为什么,微微张开的嘴唇和空洞的眼神,就连专家称他为“僵尸”的林正秀都觉得自己像个僵尸。
如果你要求自拍,Alter 3也会当场快速拍一张照片。
他痛苦地闭上了眼睛,殊不知那是因为原来镜头里的他太丑了,无法欣赏他的表情。
让我们再次聆听摇滚,开始与音乐同行。
确实,你倾向于随着节拍点头,但如果你恭敬地站在他们面前说:“啊,是的,是的,是的,是的”,感觉很合理。 (手动狗头):
在所有发布的视频演示中,“喝茶”的行为似乎是最奇怪的,最不奇怪的,甚至对我来说很有趣。
当你工作绝望时喝茶可能会危及生命。我告诉你,茶还没送到嘴边你才张嘴,所以不喝也没关系。
作为一个人形机器人,Alter3 的人类行为有点有趣,那么为什么不尝试一些其他的呢?
例如,让我们以音乐为灵感来解读一条摇摆的蛇。
你见过吗?它不太灵活,但它却使劲地扭动它的树干。这是snake.gif 的疯狂版本。
这样看来,人形机器人和GPT-4直接融合是可以的,但是一点也不美观……
事实上,回顾过去,科学家和研究人员今年一直忙于将大型模型与机器人结合起来。
然而,典型的方法寻求在进一步训练后将大规模图像语言模型的特征和知识转移到机器人领域。
许多项目包括微软的ChatGPT for Robotics、谷歌的PaLm-E、RT-1、RT-2、VoxPoser、BoboCat等都遵循这条路线。
其中,轰动一时的Google RT(机器人变形金刚)系列虽然效果卓著,但谷歌花了17个月的时间来训练它并从13个机器人中收集了13万个机器人特定数据,这让普通大众很难训练它并收集13万个机器人-来自13个机器人的具体数据,团队在获得资金和能源方面遇到了困难。
今年年中,李飞飞团队在具身智能方面的成果进一步推进,通过LLM(大规模语言模型)+VLM(视觉语言模型)的结合,进一步提升了机器人与环境交互的能力。
基于这个想法,机器人不需要额外的数据或训练就可以完成任务。
不过,李飞飞团队提供的演示硬件只是一个机械臂,而此次介绍的研究则采用了大模型行业最强大的模型GPT-4及其标志性的Alter3作为实验目标。 “身体”。
无论是OpenAI开发的GPT-4,还是东京大学与日本“机器人之父”石黑浩共同开发的人形机器人Alter3,都是现有研究成果。
这项研究的真正目的是探索如何使用像GPT-4 这样的大规模模型来控制人形机器人并在无需编程的情况下执行各种动作,是验证生成和降低人机交互复杂性的能力。花费。
基于这组结果,Alter3可以完成上面列出的各种复杂动作(我们先把完成和显示功能放在一边)。
其次,当研究人员整合Alter3和GPT-4时,他们发现即使给Alter3发出相同的命令,Alter3反馈的行为每次也不一样。
我们分析认为,这与大规模语言模型本身的特性有关,相同的输入可能对应不同的输出,但GPT-4成功地控制了人形机器人,但这并不意味着它不能完毕。
例如,如果你让机器人“吃饭”,用筷子吃饭和用刀叉吃饭时,两个动作可能会有所不同。
那么GPT-4如何知道如何在收到句子输入后立即控制Alter3呢?
关键是两步提示词事实上,在连接GPT-4之前,Alter3的身体就配备了大脑(AI神经网络)和各种传感器。
迄今为止,Alter3的运作主要依靠其内置的CPG(中央模式生成器)来分析来自传感器的数据,并按照特定的顺序驱动体内的43个气动装置来完成相应的动作。
整个过程通常需要人工干预、修补和修复。
但!现在一切都不同了,研究团队表示GPT-4 的集成让他们“安心”。
Alter3现在可以通过口头命令,其背后的技术主要是:
它们是CoT(思想链)和零射击(零射击学**)。
通过利用这两种技术,GPT-4可以将自然语言直接翻译成机器人可以理解和执行的动作,而不是完全依赖硬件本身来控制Alter3。
最重要的是,在整个过程中您不必明确地对身体的任何部分进行编程。
现在我们来谈谈如何集成GPT-4和Alter3。
大致可以分为以下两个步骤。
首先,使用提示描述您希望Alter3 执行的行为或操作,例如“自拍”或“自拍时高举手臂”。
GPT-4 接受输入并生成一系列思考步骤,详细说明完成此操作需要做什么。
研究人员将这个过程称为CoT 的一部分,它将复杂的任务分解为一系列简单的思维步骤。
然后,研究人员使用不同的提示将分解的详细步骤转化为Alter3 可以理解的行为指令。
很容易理解,你可以将人类指令转换为Python代码,并直接使用这些代码来控制Alter3身体部位的特定运动参数。
使用转换后的代码,Alter3 可以随时眨眼或卷起嘴唇。
研究团队认为第二步是CoT 的一部分,因为它涉及“将抽象描述转化为具体操作”。
研究团队表示,CoT 使得GPT-4 能够有效控制Alter3,并命令其执行各种复杂的动作,而无需任何额外的训练或微调。
总之,除了上述两个提示控制机器人之外,研究团队还完成了其他研究。
例如,我们来分解Alter3在对话中的行为,主要关注对话轨迹和语义时间的演变。
对于对话轨迹,研究团队使用了一种称为UMAP(均匀流形逼近和投影)的技术。团队将对话的内容嵌入到二维空间中,从而更容易观察这个简化版对话的发展过程。
他们发现,当交互顺序固定时,对话轨迹呈现出循环模式,即相同的主题会一遍又一遍地重复。
而当对话的顺序是随机的时,对话的内容就变得更加发散或富有创意。
有趣的是,研究发现GPT-4在聊天时间较长后倾向于重复“再见”。如果没有人为干预,他们就会痴迷于和你说再见。
在进行语义时间演化分析的过程中,团队观察到聊天内容随时间的变化。
他们注意到对话初期的一些关键词,比如“艺术”、“学**”,在对话过程中被GPT-4 遗忘了,取而代之的是“文化”、“人文”、“克制”。我理解。
这表明对话的内容随着时间的推移而不断变化。
当然,一旦你开始对GPT-4说“再见”,GPT-4几乎就要跟你说再见了~(doge)
东京大学的这项热门研究由东京大学和一家日本替代机械公司提供。
第一作者是东京大学系统科学研究生院的Takahide Yoshida。
其余两位作者Atsushi Masumori 和Takashi Ikegami 均就读于东京大学,隶属于Alternative Machine。
最后不得不提一下Alter3,它是本次研究的主要焦点。进行这项研究的研究人员也来自东京大学。这是由东京大学AI 研究员池上隆(Takashi Ikegami) 和``.在日本,他被称为“机器人之父”。
Alter3是2020年诞生的同系列机器人的第三代。
据了解,Alter系列的两次迭代都是在歌剧演唱过程中完成的。第三代的首次亮相是在东京新国立剧场,指挥乐团并参加其他现场表演。
当时的特点是增强了传感器、提高了歌唱表现力、改进了发声系统。
以及最终可驱动43 个气动装置的体内CPG。
CPG的数据分析有多保密?也就是说,如果Alter 3所在的房间温度突然下降,Alter 3就会打颤,表示寒冷。
这也可能是连接GPT-4作为大脑后能够表达和执行生动动作的基础。
说到人形机器人的最新消息,就不能不提老马关于特斯拉擎天柱的最新消息。
就在刚刚,马斯克突然在推特上发布了一段擎天柱的视频,称第二代擎天柱机器人(Gen 2)将于本月发布。
第二代Optimus 的“小”改进是步行速度提高了30%。
它还可以提高您的平衡和身体控制能力。
我等不及了!
参考链接:[1]https://tnoinkwms.github.io/ALTER-LLM/[2]https://arxiv.org/abs/2312.06571[3]https://twitter.com/elonmusk/status/1734763060244386074—完—Qubit QbitAI · 标题签名
关注我们,第一时间了解最新技术动态