UCLA提出多模态具身智能大模型MultiPLY AI首次拥有类人感官 [复制链接]

gythy1978

军衔等级：

少将

注册：2015-1-28 点赞数

73

电梯直达

1^# 大中小

发表于 2024-1-22 15:46:34 |只看该作者 |倒序浏览

要点:

UCLA等机构的研究人员最近推出了具身智能大模型MultiPLY，该模型具备多模态感知能力，包括触觉、视觉、听觉等，使得AI能够更全面地与3D环境进行交互。

通过与3D环境的交互，MultiPLY在对象检索、工具使用、多感官标注和任务分解等具体任务实验中，表现出比当前技术水平更高的性能。

为了训练MultiPLY，研究人员创建了一个大规模多感官数据集Multisensory-Universe，包含50万条由AI智能体在3D虚拟环境中交互时收集的数据，涵盖了多种任务类型。

站长之家（ChinaZ.com）1月22日消息:近日，UCLA等机构的研究人员推出了具身智能大模型MultiPLY，该模型不仅具备多模态感知能力，包括触觉、视觉、听觉等，使得AI能够更全面地与3D环境进行交互。这标志着具备多感官能力的大模型成为未来AI发展的重要方向。

MultiPLY在多任务实验中表现出色，包括对象检索、工具使用、多感官标注和任务分解等，刷新了当前技术水平。为了训练这一新模型，研究人员创建了Multisensory-Universe数据集，包含50万条多感官数据，涵盖了多种任务类型。尽管面临挑战，如当前缺少训练多感官交互的数据和正确表示3D场景的多感官信息，但MultiPLY的出现为实现AGI提供了新的方向。

在模型训练阶段，研究人员引入了新物体，并通过触觉、环境声音、撞击声音、温度等多种传感器数据获取方式，让模型学会感知物体的多模态信息。

为此，研究人员提出了多感官全景生成管线，通过不同传感器收集触觉、声音、温度等信息。整个训练过程中，MultiPLY通过智能体与3D环境交互，生成多感官观测值，并在推理过程中不断生成动作token，展现出强大的多模态能力。这一研究的出现，为构建更全面、具备多感官能力的大模型提供了新思路。

本主题由版主或管理员于 2024-1-22 15:50 审核通过

0 举报本楼

本帖有 4 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

( )|联系我们 |网站地图

GMT+8, 2024-9-19 09:23 , Processed in 0.127551 second(s), 17 queries , Gzip On.

		自动登录	找回密码
密码			注册