本文介绍了将DeepSeek-R1方法迁移至多模态大模型Vision-R1的实现思路。该方法基于未经专门推理优化的原始多语言大型模型(如Qwen-2.5VL-7B-Instruct),直接应用强化学习(RL)进行训练。训练中使用硬格式结果奖励函数(HFRRF),规定只有当模型输出格式正确且答案正确时,才给予1的奖励;否则为0。目标是激励模型生成多模态连续性文本(CoT),以解决数学推理任务。
阿里通义团队近期发布了一款名为R1-Omni的多模态模型,该模型融合了RLVR技术,显著提升了模型的高透明度特性。R1-Omni能够清晰展示音频和视频信息的具体作用,通过RLVR方法的应用,更直观地识别和利用不同模态数据,从而增强其推理能力。这一创新为多模态模型的发展提供了新的方向。
北京大学、上海人工智能实验室和南洋理工大学联合开发了名为DiffSensei的框架,这是首个结合多模态大型语言模型(MLLM)与扩散模型的漫画生成系统。该框架旨在提供定制化的漫画生成服务,并已开源。项目团队还提供了包含4.3万页漫画的大规模数据集,以支持框架的训练和漫画生成过程,为相关领域的研究和发展提供了宝贵资源。
Phi-4-Multimodal 是一个参数高效的多模态模型,通过LoRA适配器和模式特定的路由器实现文本、视觉及语音/音频数据的无缝集成。该模型采用多阶段优化策略进行训练,确保在不同模态和任务上的高性能表现。其训练数据来源广泛,包括高质量的合成数据,展示了小型语言模型处理多模态任务的巨大潜力。
智源BGE-VL是一款由智源与多家顶尖高校联合开发的多模态向量模型。该模型凭借其独特的MegaPairs合成数据技术,在图文检索和组合图像检索等任务中取得了显著进展,刷新了多项基准测试的最高性能记录(SOTA)。这一突破性成果不仅展示了多模态模型的强大潜力,也为相关领域的研究和应用提供了新的方向。
智源BGE-VL是由智源与多家顶尖高校联合开发的多模态向量模型。该模型凭借创新的MegaPairs合成数据技术,在图文检索和组合图像检索等任务上取得了突破性进展,刷新了当前最佳性能(SOTA)。它在AI检索领域具有革命性意义,能够通过拍照和提问精准搜索,显著提高数据检索的效率和准确性。
司南近期发布了第一期多模态模型闭源评测榜单,涵盖48个模型。此次评测特别引人注目的是3个国内API模型:GLM-4v-Plus-20250111(智谱)、Step-1o(阶跃)和BailingMM-Pro-0120(蚂蚁)。这些模型在各自领域展现了卓越的性能,为多模态技术的发展提供了重要参考。通过这次评测,不仅展示了国内多模态模型的研发实力,也为未来的技术创新奠定了坚实基础。
智源研究院与多所高校携手,成功开发了智源开源多模态向量模型BGE-VL。这一成果不仅标志着多模态检索技术的重要进展,也进一步丰富了BGE模型家族。自推出以来,BGE系列模型以其卓越性能和广泛应用前景获得了社区的高度认可。BGE-VL的发布为多模态信息检索领域带来了新的突破,展现了学术界与产业界合作的巨大潜力。
近期,一种显著超越SFT(Sequence-to-Sequence with Teacher Forcing)的技术成为研究焦点。作为o1/DeepSeek-R1的核心秘诀,该技术不仅提升了模型性能,还成功应用于多模态大型模型中,实现了功能扩展。与传统SFT相比,新技术在处理复杂任务时展现出更高的准确性和效率,为多模态数据处理提供了新的解决方案。这一突破性进展标志着人工智能领域的重要进步,预示着未来更多创新应用的可能性。
近期,基于多模态大型语言模型(MLLM)构建的GUI智能体在智能设备上实现任务自动化方面引起了广泛关注。这种技术通过重构人机交互方式,能够精准解析跨应用的指令,从而推动自动化办公技术向前发展。用户可以通过自然语言与设备互动,完成复杂任务,极大提高了工作效率和便捷性。
在最新的研究中,研究人员深入探讨了无编码器架构在3D大型多模态语言模型(LLM)中的应用潜力。这项创新性研究首次将3D编码器的功能直接集成到LLM中,而非作为独立组件存在。此方法不仅简化了模型架构,还显著提升了模型处理和理解3D数据的效率,表明无编码器架构的潜力可能被低估。
微软Phi-4系列新增两款模型,分别为5.6B参数的多模态单任务模型和3.8B参数的小模型。前者在性能上超越了GPT-4o,后者则与千问7B模型相媲美。尽管当前大模型参数动辄达到百亿、千亿级别,但这些“小而精”的模型依然展现出独特价值。它们不仅优化了资源利用,还在特定任务中表现出色,为业界提供了更多选择。
多模态大型语言模型(MLLMs)在技术进步中取得了显著成果,但顶尖模型与人类偏好的对齐程度仍显不足。当前研究多聚焦于特定领域,如减少幻觉问题,而对模型是否能全面符合人类偏好尚未充分验证。快手、中国科学院和南京大学的研究团队通过10个评估维度的创新研究,打破了这一瓶颈,实现了多模态大模型对齐新范式的全面提升,显著提升了MLLMs的多方面能力。
本文探讨了Allenai开源的多模态文档智能解析大模型(Olmocr)的应用方法与效果。对于元素较为简单的RAG文档,使用Olmocr这一端到端的多模态模型是可行的选择。然而,面对版式复杂的文档时,传统解析方法可能更合适。此外,结合pdfparser工具和提示(prompt)的方式能有效提升文档解析的效率与准确性。
微软公司近期推出了Phi-4系列的两款新模型——Phi-4多模态(Phi-4-multimodal)和Phi-4迷你(Phi-4-mini)。这两款模型旨在显著增强语音、视觉和文本处理能力。Phi-4多模态模型集成了先进的算法,能够更精准地理解和生成多模态内容;而Phi-4迷你则以轻量级设计为特色,适用于资源有限的场景。这些新成员的加入,标志着微软在扩展Phi-4家族方面迈出了重要一步,进一步巩固了其在人工智能领域的领先地位。
据悉,DeepSeek即将提前发布其新一代产品R2。R2将实现100%国产算力部署,硬件完全依赖国内技术,标志着技术自主化的重要进展。此外,R2的能耗预计将降低25%,有助于提高能效和降低运营成本。R2还将采用多模态模型,增强处理不同类型数据的能力。与此同时,DeepSeek宣布开源FP8通用矩阵乘法(GEMM)加速库,支持V3/R1模型的训练和推理,性能达1350+TFLOPS,进一步提升流畅吐字并降低成本。