字节推出多模态大模型LLaVA-NeXT-Interleave，提升多图像任务处理能力 [复制链接]

zhaoshixuan1989

军衔等级：

新兵

注册：2023-8-11

电梯直达

1^# 大中小

发表于 2024-8-9 09:15:35 |只看该作者 |倒序浏览

近期字节团队推出开放大型多模态模型LLaVA-NeXT-Interleave，其视觉指令微调在增强大型多模态模型（LMM)多图像任务处理能力方面取得了巨大进步。LLaVA-NeXT-Interleave可同时处理LMM中的多图像、多帧（视频）、多视图（3D）和多补丁（单图像）场景，其将交错数据格式作为通用模板，通过编译了包含1177.6k个样本的M4-Instruct数据集，涵盖4个主要领域的14项任务和41个数据集对模型进行视觉指令微调，提供了一种内聚的方法来处理多图像任务的挑战。通过大量实验，LLaVA-NeXT-Interleave 在多图像、视频和3D基准测试中取得了领先的成绩。

本主题由版主或管理员于 2024-8-9 09:21 审核通过

0 举报本楼

返回列表

( )|联系我们 |网站地图

GMT+8, 2024-9-17 03:27 , Processed in 0.083186 second(s), 16 queries , Gzip On.

		自动登录	找回密码
密码			注册