突破性进展:无编码器3d多模态大模型enel问世!
这项由上海AI Lab、西北工业大学、香港中文大学和清华大学等机构联合研发的ENEL模型,将无编码器多模态大模型拓展到了3D领域,实现了对不同点云分辨率的适应性,并彻底摆脱了对预训练编码器的依赖。
ENEL在Objaverse基准测试中表现卓越,性能超越了当前最先进的ShapeLLM-13B模型。
基于编码器架构的3D LMM的局限性
传统的基于编码器的3D大型多模态模型(LMMs)存在以下不足:
- 点云分辨率限制: 预训练编码器通常依赖于固定分辨率的点云数据,导致推理过程中分辨率变化时信息丢失。
- 嵌入语义差异: 编码器的训练目标与LLMs的语义需求可能不一致,难以捕捉关键语义信息。
ENEL的无编码器架构有效解决了这些问题,展现出更高的灵活性和泛化能力。
ENEL的核心创新:
为了
克服无编码器结构的挑战,ENEL团队进行了两方面的创新:
- 整合3D编码器功能: 通过在预训练阶段引入自监督损失,将3D编码器的功能融入LLM本身。实验表明,掩蔽建模损失效果最佳。
- 层次几何聚合策略: 在指令微调阶段,设计了层次几何聚合策略,增强模型对3D局部细节的感知能力,并与已学习的全局语义信息进行有效融合。
实验结果:
ENEL在定性与定量实验中均取得了显著成果,验证了其创新方法的有效性。 ENEL-7B在描述和分类任务上超越了同等规模甚至13B的模型。
代码与论文链接:
- 代码:https://www./link/e685b42794dde47c8d8304eb462cc3ae
- 论文:https://www./link/75291728e2d8458a104b6abd0b062b70
ENEL的出现标志着无编码器3D多模态大模型领域取得了重大突破,为未来3D视觉和人工智能的发展提供了新的方向。
复制本文链接文章为作者独立观点不代表优设网立场,未经允许不得转载。
文章推荐更多>
- 1Win11 新版开始菜单上线,四大原则,多项改进
- 2UC缓存视频导出后无法打开
- 3mysql %什么意思
- 4vps怎么搭建wordpress
- 5oracle数据库误删怎么恢复
- 6魔方云NAT建站如何实现端口转发?
- 7navicat为什么连接不上数据库
- 8Win11 KB5055627 修复文件资源管理器启动延迟问题,网友:确实流
- 9电脑截屏的快捷键 常用截屏快捷键大全
- 10笔记本电脑怎么开机 笔记本开机步骤及注意事项
- 11蓝屏代码0x000000f4 电脑蓝屏0x000000f4的修复指南
- 12wordpress汉化插件怎么使用
- 13电脑截屏后的图片保存到了哪里 截图后文件位置查询
- 14c盘哪些文件可以删除 教你识别c盘可删除的5类文件
- 15怎么在phpmyadmin创建数据库表
- 16wordpress的百度地图插件怎么使用
- 17Wordpress不需要的图片怎么删除
- 18无文件攻击防御:内存马检测与行为分析
- 19怎么清空wordpress媒体库
- 20在夸克上怎么搜资源 夸克资源精准搜索技巧
- 21旧摄像头改造家庭监控步骤详解
- 22mongodb如何分析查询操作使用了哪些索引
- 23mysql数据库属于哪一类数据库
- 24俄罗斯资源免费看 俄罗斯引擎视频播放器入口
- 25dedecms备份的数据库文件在哪里
- 26wordpress如何判断是否为手机移动设备
- 27oracle数据库怎么查询所有的表和所有的数据
- 28oracle闪回一个星期前的数据怎么删除
- 29电脑截图都保存在哪里了 截图文件存储位置查询
- 30dedecms怎么换网站图片
