服务热线:
0898-0898089
地址:江西省南昌市
手机:13876453333
3月18日,人工智能芯片龙头英伟达推出多模态人形机器人通用基础模型“Project GR00T”,可以作为机器人的“大脑”,龙珠体育平台入口同时还发布了专为人形机器人打造配套SoC(系统级芯片)“Jetson Thor”,可以支持Project GR00T在内的同类生成式AI模型。
据英伟达创始人黄仁勋介绍,GR00T模型驱动的机器人将能够理解自然语言,并通过观察人类行为来模仿动作、快速学习,以便适应现实世界并与之互动;Jetson Thor芯片的作用则是能够支持机器人执行复杂的任务,并安全、自然地让人和机器交互。
就在英伟达发布上述新产品的五天前,备受关注的初创AI企业Figure刚刚发布一款能与人类流畅对话的人形机器人“Figure 01”,龙珠体育平台入口展示出了远超现有人形机器人水平的人机互动能力。可以说在Figure 01面前,特斯拉的“擎天柱(Optimus)”能自主完成叠衣服的动作已经不是什么值得炫耀的事。
在Figure发布的演示视频中龙珠体育平台入口,Figure 01能够详细描述眼前的事物,包括站在附近、手扶桌面的工作人员,桌面上盛着红色苹果的盘子以及摆放着餐具的沥水架;听到工作人员说想吃东西但并没有其他指示信息的前提下,龙珠体育平台入口它抓起苹果并递出。在测试人员要求其一边捡垃圾一边解释为什么要这么做后,Figure 01能在收拾垃圾的同时回应工作人员的问题:“因为这是桌面上唯一的食物”。
将装着垃圾的框子递给工作人员后,工作人员再次提问剩余餐具应该放到哪,Figure 01称应放入沥水架;最后面对“你能把它们放进去吗”的问题时,Figure 01准确地将杯子、盘子依次放入沥水架,而工作人员并没有提及餐具,也没有提要放至何处,证明了Figure 01具备基于记忆的连续对话能力。
整个演示过程中,Figure 01 除了有一点点推理的延迟外,整个过程几乎一气呵成,而且动作娴熟又精准,就像是把Chat GPT套了一个身体——事实也的确差不多。
成立于2022年的Figure是此轮人形机器人热潮中,最为外界所关注的美国初创企业之一,至今的两轮融资涉及资金超7亿美元,投资方更是豪华阵容,包括OpenAI、微软、英伟达、三星等。
实际上OpenAI原本是想收购Figure,且在此之前,OpenAI已投资挪威人形机器人初创企业1X,足见其对通用人形机器人的乐观预期龙珠体育平台入口。
再回到Figure 01身上,它现如今的互动水平具体是如何实现的?Figure创始人Brett Adcock在X上简单提到过,Figure 01取得的惊人进展是“基于OpenAI提供的视觉推理与语言理解能力,以及Figure自身神经网络支撑的快速、灵巧的底层运动能力”。
换句话说,OpenAI提供的GPT引擎可以让机器人听懂人的语言、识别图片也就是看明白眼前的画面,这是Figure 01的“大脑”。谷歌之前发布的机器人系统RT-1、PaLM-E、RT-2都展示了类似的功能进展,这些机器人模型允许机器人在日常环境中行走,并根据语言和图像模型的输入和输出来计划和执行复杂的动作,但谷歌的演示机器人并没有Figure 01这么健谈。
另一部分是机器人的动作,它能知道如何轻轻拿起苹果,放到对方手里,也知道如何拿起盘子竖着放到沥水盘中,以及在整个过程中保持自己的平衡……这都是Figure自己的研发成果,包括包括电机、中间件操作系统、传感器、机械结构等硬件工程,相当于Figure 01控制运动的“小脑”。
为了让GPT和机械运动更好的结合,Figure 01使用了特别训练的“视觉语言策略(visuomotor)”。
这个策略很好理解:先让机器人的AI大脑看大量的视频,再把视频中的“知识点”内化,然后把学习到的内容映射成一个低级别的动作——也就是发出控制信号,通过各种算法控制身体的每个关节。
Figure 01之前曾通过观看人类的示范视频,并在10个小时内学会了怎么用胶囊咖啡机泡咖啡。这些用于学习的视频很有可能是第一人称视角拍摄,也可能是3D视频;Figure通过观看视频得到胶囊咖啡机的操作具体步骤,再转化为有时间戳、关节角度序列等内容的动作轨迹(trajectory),最后拆解成低级别动作。
这就是我们常说的“端到端”的学习过程:自己看自己学,中间没有人工干预。这种基于神经网络的训练与人工编程机器人的效果截然不同。基于神经网络自学的机器人脑子更灵活,能举一反三,比如在咖啡胶囊卡住时,可以纠正自己的错误;如果是编程机器人可能就不知道该怎么解决,毕竟不可能每次卡得角度都一样。
国内某家工业机器人企业的工程师告诉记者,现在的机器人重点在于大量的视觉训练,和以前靠走逻辑的编程不一样,“逻辑比不上大量的数据资料和强大的运算能力,神经网络训练是把以前的逻辑变成常识,成功率简直倍杀”。
通过这种视觉语言策略,Figure 01可以在200Hz的频率下输出24自由度的动作。“200Hz”意味着它每秒可以处理10张图像并完成200次动作,而“自由度”则是指Figure手腕和手指关节角度可以在多大程度上进行运动或移动的能力——人类手的自由度通常被描述为有27个自由度,涵盖了手腕、手掌和手指的多方向运动能力。
可以看到,Figure01在神经网络的加持下,与世界的交互性更强,而最可贵的是,Figure的商业目标却要现实的多。
Figure 01高1.7米、重60kg、可负重20kg,与一个成年人类似,其真正的目标是在仓储制造领域应用,以解决劳动力短缺问题。现在Figure已经跟宝马签单,在今年年底前开启商业化应用。无论是商业化进程还是机器人表现,OpenAI这次押注都走到了特斯拉前面。
壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
五位90后教授、副教授:有人与同龄学生打成一片,有人连续数月每天工作18小时
有增程有纯电4月将上市 哪吒L量产车正式下线月份上市 宝骏悦也Plus官图发布
山东,大孙女真没白疼,爷爷开玩笑说想尝尝学校的包子,孙女真的跟老师要了俩
英特尔锐炫 Battlemage 显卡现身:20/24 个 Xe 核心,12GB 显存
明基推出 RD240Q 24 英寸显示器:为程序员打造,10888 新台币