,周一,来自谷歌和柏林工业大学的一组人工智能研究人员推出了史上最大的视觉语言模型 ——PaLM-E,参数量高达 5620 亿。
PaLM-E 是迄今为止已知的最大 VLM。作为一种多模态具身 VLM,它不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力(模型有不可预测的表现)。
据谷歌称,当得到一个高级命令,如“把抽屉里的米片拿给我”,PaLM-E 可以为带有手臂的移动机器人平台生成一个行动计划,并自行执行这些行动。
PaLM-E 通过分析来自机器人摄像头的数据来实现这一目标,而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要,使机器人控制更加自主。
PaLM-E 还很有弹性,能够对环境做出反应。例如,PaLM-E 模型可以引导机器人从厨房里拿一袋薯片,由于 PaLM-E 集成到了控制回路中,它对任务中可能发生的中断有了抵抗力。在一个视频例子中,一名研究人员从机器人手中抓起薯片并移动它们,但机器人找到了薯片并再次抓起它们。
另外,PaLM-E 模型也可控制机器人自主完成原需人类指导的复杂任务。除了机器人技术外,谷歌研究人员还观察到使用大型语言模型作为 PaLM-E 核心的几个有趣效果,其中一个是 PaLM-E 能表现出“正向转移”,这意味其可将从一个任务中学到的知识和技能转移到另一个任务中,相较单任务机器人模型能有更好的表现。
谷歌研究人员计划未来将探索 PaLM-E 在现实世界中有更多应用,例如家庭自动化或工业机器人,也希望 PaLM-E 能够激发更多关于多模态 AI 的应用。
IT之家曾报道,身为谷歌 AI 劲敌的微软近期也发表了「ChatGPT for Robotics」的论文,以类似的方式结合视觉数据和大型语言模型来控制机器人。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
-
盘扣式脚手架有哪些优点?四川远方模架告诉你答案!新浪网消息:四川远方模架科技有限公司位于四川省成都市,创建于2017年。公司拥有M60型盘扣脚手架总量达30000余吨,具有...
-
区块链如何跨越未来10年“十四五”时期,随着全球数字化进程的深入推进,区块链产业竞争将更加激烈。作为新兴数字产业之一,区块链在产业变革中发挥着重要作...
-
三人篮球将首登奥运舞台 国家三人男女篮签署反兴奋剂为实现东京奥运会兴奋剂问题“零出现”的目标,近日,中国篮协反兴奋剂委员会分别前往山东济南和上海崇明训练基地,为国家三人男、女...
-
全国万达广场举办女性招聘专场,提供上万个就业岗位
2023-03-09 11:29
-
SpecopsSoftware公布弱密码研究报告:8
2023-03-09 10:52
-
飞利浦34M2C8600显示器上架:34英寸OLED
2023-03-09 10:50
-
践行二十大建证“她”力量——中建四局五公司云南分公司
2023-03-09 10:39
-
央行公开市场连续净回笼,今日实现净回笼700亿元
2023-03-09 10:01
-
国家邮政局:2023年全国快递业务量突破200亿件,
2023-03-09 09:52
-
国网宁城县供电公司:以企业座谈会架起电力营商环境“连
2023-03-09 08:56
-
苹果重组国际业务管理层,加强在印度的运营力度
2023-03-09 08:54
-
非洲部落活人献祭的食人树:真的存在吗?!--
2023-03-09 08:13
-
DuckDuckGo搜索引擎推出AI工具DuckAs
2023-03-09 08:10