作者丨临风
编辑丨海腰
图源丨covariant官网
设想一下,假如给用于分拣的机械臂施“变聪明”的魔法,它就能和人类以自然语言交流,完成挑拣工作,区分垃圾和物品,还能自觉地卸货、上货,好似不知疲倦的厂工拿一份工资干2个人的活儿。
Covariant(以前叫Embodied Intelligence),硅谷机器人初创公司,致力于将机器人版ChatGPT带入人们的工作和学习生活中,研发适用于各类场景的通用型人工智能。其核心产品是Covariant Brain,即机器人大脑软件,可以适配在不同的硬件之中,现在主要部署在工业机械臂之上。Covariant从物流仓储、快递分拣自动化入手,协助人类完成繁重和劳累的工作,后续长期愿景是研发通用型基础模型。
它的创立者团队是伯克利知名教授、深度强化学习先驱Pieter Abbeel及他的3位华人博士生Peter Chen(陈曦)、Rocky Duan(段岩)和Tianhao Zhang(张天浩)。值得一提的是,前3位都是OpenAI前员工,来自其解散的机器人团队。
图源:covariant官网,从左至右为:段岩、张天浩、Pieter Abbeel、陈曦
他们的投资人阵容可称作AI科学界的“团建”,包含谷歌高级研究员Jeff Dean,斯坦福教授李飞飞,深度学习三巨头之二Yann LeCun、Geoffrey Hinton,伯克利杰出教授Michael Jordan,MIT AI实验室主任Daniela Rus等。去年,比尔盖茨在他们的C轮融资里凑了个热闹。
图源:比尔盖茨领英分享
Geoffrey Hinton觉得自己投少了,发推表示十分后悔,“我应该多投资100倍。”
图源:推特
至今,Covariant融资5轮,融资总额2.22亿美元。最近一次C+轮融资发生在2023年4月,Index Ventures、Radical Ventures领投,Amplify Partners、Gates Frontier Fund等跟投,融资7500万美元,此前资方包括淡马锡、Radical Ventures、Amplify Partners、Samsung NEXT、峰瑞资本等。
从团队实力一瞧便知,他们不会轻易画饼。3月12日,Covariant发布了机器人领域的通用基础模型RFM-1,这个机器人模型给机械臂装上了“大脑”,使其理解、识别物理世界,人类可与其用自然语言交流。RFM-1可接受数据训练完成更多工作。27日,它学会反思改进、提出策略,就像ChatGPT走进现实。
一、一个“大脑”会做5种物流仓储工作
与Figure.ai、特斯拉、Agility等同样在工厂打工的机器人公司不同,Covariant从纯软件和纯人工智能出发,研发控制机器人的“大脑”。CEO Peter Chen(下文统称为“陈曦”)认为,这能使他们比其他公司更深入地研究人工智能。
他们的核心产品Covariant Brain赋予机器人看、思考、行为的能力,因为学习得够多,它们可以像小鸡啄米一样“拿(吸)起”任何物品,且不论尺寸、形状、包装、大小、质地、纹样如何。
就像生成式AI可以即时写营销文案一样,Covariant通过采用单一通用人工智能模型,赋予机器人组合更高的生产力,使其能够在现场拣选、分类、放置几乎所有物品。
由于AI系统的强大,Covariant Brain的合作方包括Knapp、ABB、Bastian、Fortna等知名仓库和物流公司。“随着挑拣任务越来越棘手,每一次我们都预计他们会在下一个产品上失败,但一切都非常顺利”,KNAPP创新副总裁Peter Puchwein评价道。
图源:covariant官网
先来看Covariant已有的仓储应用场景。其一是Robotic Putwall(分拣墙),这个系统用于批量拣选和退货处理。它能自动对混合SKU装箱做分拣。2022年10月,B2C电商Radial装配了12台Covariant的Putwall机器人,据称,全面运行时每个机器人平均每月可进行约10万次拣选。
图源:covariant Putwall简介
其二,Robotic Induction,Covariant的机器人投放系统能实现自动化入库操作,自主将物品投入单元分拣机、袋式分拣机、自动导向车、自动装袋机等设备,识别每种产品后确定最佳抓取点和抓取速度,将物品分类、分组至包装站。此类系统与KNAPP的机械分拣合作,为GXO部署智能化电商仓库。
来源:covariant Induction简介
第三种,Goods-to-Person Picking,针对的是更需脑力的场景——拣选。传统仓储场景类,往往是人类在穿梭车、自动导向车和其他自动存取检索系统中移动并挑选货物。Covariant则将这个工作变为“货物—机器人”的拣选,把大部分重复劳动包圆了。美国药品分销商McKesson的仓库拣货严格,因药品包装复杂,专业劳动力短缺需要大量智能拣选,KNAPP、Covariant合作的机械臂能识别不同包装、特征各异、体型较小的药品。
图源:covariant Goods-to-Person Picking简介
图源:KNAPP智能Pick-it-Easy机器人在美国McKesson制药公司负责拣货工作
第四类是Robotic Kitting,做配套工作,适用于占地面积小的包装工作,做联合包装、套餐配餐或订阅服务的自动化组装。
还有一类是Depalletization,自动卸剁,也就是将混合的SKU解托到传送带上,确保仓储和拣选区的及时补充。据称,一家大型家居装修零售商部署了多个Covariant的卸剁系统提高效率。
图源:covariant官网
结合用例可知,Covariant从2017年开始将机器人部署到世界各地客户需要的真实现场,进行数据收集。ChatGPT需要学习大量数据,Covariant的机器人也一样。为保证构建高性能机器人基础模型,做源于真实环境的物理交互。
此外,数据的收集能帮机器人深入理解物理世界的罕见事件,发现在实验室环境中很少遇到的特殊情况。其主要收集多角度视频、静态图像、站点和任务描述、电机编码器和压力传感器等数据。
仓储、物流场景中的传统机械臂,笨重缓慢,要拾取特定物品按规定路线走。Covariant则让机器人亲临现场,直接挑战高难度,身经百战。他们一直让自己的系统操作“拿取”高遮挡情形下的可变形物体,从圆柱形的杯子到不规则的小黄鸭,摆放混乱、紧密不一,这完全考验机器人自己推理不同材料的吸力强度,当机器同步率到99%时,已经能与人类劳动力水平相当。
今年三月,在Covariant Brain AI平台部署机器人收集大量数据的基础上, RFM-1机器人基础模型成功推出,陈曦表示,该模型基本上是一个大语言模型,但专为机器人语言设计。
二、会主动求解的机器人模型
据官网,Covariant Brain由RFM-1驱动,并在全球仓库中最大的多模态机器人数据集上进行训练,一天就能让机器人捡起任何SKU或货物。RFM-1则是经过80亿参数训练的Transformer模型,它的发布意味着Covariant朝着准确模拟和能物理世界复杂条件下操作的泛化人工智能模型迈出结实的一步。
研究介绍,RFM-1是一个多模态任意序列模型,经过文本、图像、视频、机器人动作等系列数字传感器读数的训练。它通过将所有模态转换为一个共同的空间,并执行自回归的下一个标记预测。
通俗来说,RFM-1做图像到图像的学习,理解人类的文本指令,观察喂给它的图像,将场景图像和目标抓取物配对,以视频形式反馈模拟结果。据“机器之能”分析,可以将RFM-1视为一个视频生成器,输入拾取某物的命令,系统会使用训练数据(形状、颜色、大小)来识别与描述最匹配物体,然后生成视频,预测自己拿起物体时会发生什么,并确定最佳行动方案。
图源:covariant官网,RFM-1简介,图1(左上),图二(右上),图三(左下),图四(右下)
例如,RFM-1根据图1(初始动作)和图2(规定物品),生成图3(模拟的拾取动作视频),图4则是它现实世界中的实际选择。要注意一点,RFM-1的动作是推理、预测未来几秒钟物品框的变化而帮助决策,而不是在机械地拿。
图源:covariant官网。此图为RFM-1生成的图像显示,假设从起始手提袋(左)中选取特定物品(中),则预测手提袋的外观(右)
不仅如此,任何人都能用自然语言与机器人协作,不需要编程和工程背景。如下图,操作员可以用简单的几句英语让机器人拿起红苹果和浴室用品。
如果遇到了难题,RFM-1会主动向人类提问,操作员可以用自然语言告诉它操作技巧。如下图,机械臂在抓取网球时找不准着力点,它会主动问人类该怎么办,操作员提供指导后,它能准确根据建议继续操作。
在博客文章中,Covariant提到了RFM-1还具有局限性,尚未部署给客户,目前还期望收集到的数据能加速定位到RFM-1的故障模式并帮助它学习。
因为受限于上下文长度,它还以相对较低的分辨率和帧率运行,RFM-1虽然已经可以捕捉大型物体的变形,但无法模拟小物体/快速移动,即要想让它拧螺丝、削皮可能还是有难度。
3月27日,Covariant发文称RFM-1有重大更新,机器人可以通过反思最近行为想出遇到难题时的改进行为。例如它在抓取全新物品袜子时,抓了几次都失败了,于是反思自己,然后进行内部对话,认为自己可以通过吸取纸壳来抓取袜子。
不过,Covariant离目标还很远。他们认为,RFM-1是一个通用的机器人大脑,不排除它会介入任何具身的设备里(包括人形机器人)。而要做到这一点,他们的数据收集速度至少要提升10倍。
陈曦透露,他们将随着RFM-1的成熟开放API给其他机器人公司,“未来会有大量的机器人开发者和公司接入我们的API,我们希望成为他们的GPT平台。”
三、从OpenAI出走收集现实世界数据,走OpenAI走不通的路
陈曦表示,“除了ChatGPT,市面上有很多自然语言处理的AI,用在搜索、翻译、垃圾邮件上。方法是针对每个用例,使用较小的数据子集训练特定的AI。基础模型的方法应该是,在更多的数据上训练大型泛化模型,这样AI也就能更加泛化。”
这个想法和致力于通往AGI道路的OpenAI基本一致,因为其团队四名成员有3名都来自OpenAI放弃的机器人团队。Covariant成立于2017年,由一位大牛Pieter Abbeel带领陈曦(Peter Chen)、段岩(Rocky Duan)、张天浩(Tianhao Zhang)三位华人博士出走创业,这四个人关系密切,都来自加州伯克利大学人工智能实验室 (BAIR)。
图源:covariant,从左至右,张天浩,段岩,陈曦,Pieter Abbeel
团队中,最负盛名的是Pieter,吴恩达的第一个博士生,斯坦福大学计算机科学博士。他创立了伯克利机器人学习实验室,是BAIR的联合主任,并在2017年成为伯克利的终身教授。他的研究以机器人和机器学习为主,合著论文约357篇。据Pieter个人网页,主要研究方向包括AI、强化学习和机器人方向,早在2008年他的博论就探讨了教会机器人从演示中学习(学徒学习)和反复试错学习(强化学习)应用于机器控制中。可以看出,Pieter的研究对Covariant Brain的影响举足轻重。
图源:Pieter Abbeel个人网页,https://people.eecs.berkeley.edu/~pabbeel/
Pieter在2021年获得ACM计算奖。学术界外,Pieter在业界人脉广泛,他是播客The Robot Brains主持人,采访过Ilya Sutskever、Andrej Karpathy、Geoff Hinton等科学家及创投人士。
他的身份非常多元,科学家、连续创业者(Covariant、Gradescope)、媒体主持人及VC合伙人。Pieter在OpenAI成立的第二年加入,成为其机器人团队的一员。同时加入的还有天才少年段岩和陈曦。
除了Pieter外,其余三位华人可能都是30岁左右的90后小伙。
陈曦,CEO,2016年攻读伯克利博士,BAIR研究员,与Pieter一样专注强化学习、元学习、无监督学习方向,发刊30余篇,引用超2万次。
图源:福布斯
段岩,CTO,本硕博伯克利,2年读完博士,在EDX做了3个月软件工程实习生。21岁时成为OpenAI最早的雇员之一,入选2024福布斯“30under30精英”,行业相关研究引用超15000次。Pieter评价他“比任何很有生产力的人多10倍生产力”。
图源:段岩个人网页,http://rockyduan.com/
张天浩,联创,本科伯克利双学位,2016年起攻读博士学位。他曾担任过MongoDB的软件工程实习生和微软的研究实习生。目前和陈曦一样处于休学状态。
图源:张天浩个人网页,http://tianhaozhang.com/
2017年5月,OpenAI就发布过用于模拟控制机器人的开源软件,创建了系统用在物理机器人身上,而且其系统算法能从失败中汲取教训强化学习。2年后,他们首次展示了机器人运作,效果不太好。据Venturebeat,2021年底,OpenAI联创Wojciech Zaremba透露了解散机器人团队的决定。因为从实际的商业情况来看,机器人是一个资本密集型领域,对初创来说路不好走。
当然,OpenAI并未完全放弃机器人,至少在2024年3月,装入OpenAI GPT4v视觉语言模型支撑的Figure 01已经能一边聊天一边收拾桌面垃圾了。同一时间,Covariant推出的RFM-1也学会了靠自己“拿起”柔软的袜子。两家AI“大脑”各有所长,栖身于灵活的物理器械中发挥效用。
图源:TheAIGRID,Figure 01主动清扫桌面
在Pieter的播客节目中,段岩谈到了从OpenAI离开,开始Covariant的原因,他并不否认OpenAI团队的高效,在那里他们的重点推动基本学习算法,接受挑战性任务。
一天,他曾和陈曦在一家中餐馆里讨论,如何将机器人学习水平推向一个新的水平,他们认为:“仅开发和改进算法已经远远不够,更重要的是获得正确的数据。数据,不仅包括注释类,还需包括机器人执行的各种任务。”
道理很简单,缩减学界和业界之间的鸿沟,便是靠实践出真知。段岩的观念是,要让AI机器人真正发挥作用,得做横向扩展。“我们需要在商业环境中大规模部署机器人,结合经验以改善学习系统——这是在实验室学术环境中无法接触到的数据。”
随着机器人团队核心成员出走创业,2021年后OpenAI也将研究重心转向了易获取数据的其他基础模型之上。Covariant走向了AI机器人的研究,沉寂多年收集数据,归来便是王炸。
2018年,Covariant开发了Covariant Brain及第一个用于自动化仓储和拣选放置的AI机器人解决方案,等待一个应用时机。
第一个转折点到来,Covariant借此获得部署机会。据Fortune报道,工业机器人制造商ABB在2019年举办抓取一场竞赛来评估潜在合作伙伴,看AI是否足以成熟地运用至机器人自动化领域中。ABB邀请了20家机器人公司(10家欧洲公司,10家美国公司),竞赛中他们安排了26种物品做复杂的拣选、包装和分拣挑战,包括苹果、翻盖式物品、玩具等,其中一半赛前保密。Covariant是其中唯一一家成功完成所有挑战的公司。拿下大客户ABB,Covariant并很快将合作方案部署在电商旅行服务提供商Active Ants(隶属于Bpost)。
图源:ABB
Covariant成为ABB、Bpost面向客户的标准方案工具的首选提供商,大客户纷至沓来。他们与KNAPP的拣选机器人Pick-it-Easy密切合作,又链接到了GXO、McKesson及Obeta等北美、澳洲、德国的知名企业。
图源:covariant官网
大型物流公司一直以来对AI自动化分拣有市场需求。据数据,零售商和物流厂商的自动化手动任务(拣选、包装、装载、卸货)占履约成本的60%。KNAPP的Peter Puchwein做了19年自动化仓库,在他看来,AI机器人可以挑选95%-99%的货品,完胜只有10%的非AI机器人。Peter不信AI初创公司剪辑后的展示视频效果。2020年前后,他们公司的工程师走遍世界各地寻找最好的拣选机器人,最终选择了Covariant,测试了三四个月才确定把这类机器推向市场。
Peter打了一个比方来说明性价比,假如一个工人年薪4万美元,那他们不知疲倦的KNAPP机器人解决方案只要3万美元,这让客户根本“无法拒绝”。
而且,那时的Covariant称,他们的分拣已经达到10000种不同的物品,准确率超99%,意味着几乎与人类劳动力对齐。
随着应用场景增多,Covariant逐步推出新功能,到2022年与Capacity合作时,它已经以超过500PPH(每小时处理500订单)履服数千订单,其中不到0.1%需要人工干预。需要注意,PPH是学术界、工业界和标准机构衡量机器人抓取的主要基准和指标,此时Covariant的PPH已非常接近人类(400-600次/小时)。
尽管如此,陈曦认为,用MPPH来考验机器人抓取的系统性能已经成为一个过时指标,“我们更多地衡量的是系统的可靠性,即每小时干预次数,也就是人类需要参与的频率。”他的观点获得RightHand Robotics的CTO Lael Odhner认可。
后期,Covariant不断拓宽企业合作之路。2022年,Bpost旗下的 Radial集成了12台Putwall,PPH达到425次。2023年,欧洲最大在线零售商Otto与其达成战略合作,部署100多个AI机器人处理订单拣选。
图源:covariant官网,与Otto合作机器人
Covariant全球拓展业务,每隔两年设立新的全球办公室。据官网,Covariant从2019年到2021年已设立深圳、伦敦办公室。
总的来看,Covariant目前正用“大脑”与大型机器人制造商如KNAPP合作,以收集数据和经验不断促进AI系统升级,同时这也是其主要商业模式。
四、AI捡东西,走在百亿市场的赛道里
是不是觉得,让这么厉害的AI大脑来捡东西有点“大材小用”?
Radical Ventures合伙人Jordan Jacobs解释了这项挑战:“开发一个AI系统准确操作机械臂,从一堆杂乱货物中识别出目的物,颠倒、侧倾、弄正,这是非常困难的事。”
教AI机器人捡东西,确实是看似非常容易的任务,但却是世界上多数大厂和研究室困扰多年的问题。1岁婴儿能做到的事,对机械臂来说却非常困难。一是要让它自己抓得起来,二是要让它抓得起大多数物品,这其中有执行器的控制、夹具摩擦问题,传感器感知的解释和嘈杂数据的影响。
如,2016年,谷歌运行14个机械臂互相学习抓东西;同年,亚马逊在机器人拣选大赛获得冠军,是因为他的机器人每小时100件的速度拣选产品(人类速度是400件/小时)。
图源:The verge,上谷歌,下亚马逊
不仅如此,机器人帮大厂仓储物流“捡东西”是顺应需求。美国劳工统计局(BLS)报告称,仓库和仓储行业全国1.7万个地点雇用超过100万名工人,而每年5%的仓库工人至少发生一次工伤事故。在2021年,该行业成为人员流动率排名第二的行业。更多数据表明,美国公司每年因工伤损失620亿美元。
机器人赛道也有庞大市场。马斯克在去年5月发布自家机器人Optimus时说,未来人形机器人有长期价值,乐观预测下有望达到百亿台。有研报认为,到2023年,工业机器人全球市场收入近438亿美元。此外,人形机器人有望印证“AI软切硬”的逻辑,成为AI+的终极应用,在2021-2030年间全球市场规模CAGR将达到71%,最值得关注的类别有机器视觉、工业机器人、服务机器人等。麦肯锡报告认为,到2030年全球约有4亿工作岗位被自动化机器人替代。
由此也可以看见Covariant的隐忧,即使拥有再厉害的“大脑”,也需考虑身体的研发。有分析表示,当前Covariant与大客户的直接合作需要和KNAPP这类机械臂厂商装上AI大脑,但KNAPP本身也是有高度自动化机械的解决方案提供者,若受限于软件端,做二级供应商,则对商业议价有一定影响。此外,初创阶段的Covariant渠道难敌已有物流机器人公司的亚马逊。
在2021年OpenAI解散机器人团队时,Zaremba补充:“如果我们是一家机器人公司,我们会继续下去。我非常相信机器人团队的方法和方向,但从实现的目标来看,我们还缺少一些组件。”他们暗示了投入回报率偏低的机器人业务在市场不具利好。
但这与Covariant不可同日而语,那时OpenAI他们的成品没有实地数据的收集,也没有商业化落地。陈曦设想,未来人工智能将成为机器人应用爆炸式增长的催化剂。单一的基础模型(通用人工智能平台)可以支撑机器人跨地域、任务工作,使其智能、自主地执行任务,与狭义人工智能不同,它只能按预定义方式寻找模式,通用人工智能的开发意味着能处理环境中的异常情况。
陈曦希望,未来Covariant能为数以百万计、数以千万计、数以亿计甚至数十亿的机器人提供大脑,“它不仅是单一的机器人应用,也不仅仅是硬件。”