澳门·威尼斯人(中国)官方网站

澳门·威尼斯人(中国)官方网站

| 举报 切换到宽版

澳门·威尼斯人(中国)官方网站

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  新兵

注册:2023-8-11
跳转到指定楼层
1#
发表于 2024-8-9 09:15:35 |只看该作者 |倒序浏览
近期字节团队推出开放大型多模态模型LLaVA-NeXT-Interleave,其视觉指令微调在增强大型多模态模型(LMM)多图像任务处理能力方面取得了巨大进步。LLaVA-NeXT-Interleave可同时处理LMM中的多图像、多帧(视频)、多视图(3D)和多补丁(单图像)场景,其将交错数据格式作为通用模板,通过编译了包含1177.6k个样本的M4-Instruct数据集,涵盖4个主要领域的14项任务和41个数据集对模型进行视觉指令微调,提供了一种内聚的方法来处理多图像任务的挑战。通过大量实验,LLaVA-NeXT-Interleave 在多图像、视频和3D基准测试中取得了领先的成绩。


举报本楼

您需要登录后才可以回帖 登录 | 注册 |

( )|联系我们 |网站地图  

GMT+8, 2024-9-17 03:27 , Processed in 0.083186 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 All Rights Reserved

回顶部