技术博客

从MLLM到Vision-R1:多模态大模型迁移与优化之路

本文介绍了将DeepSeek-R1方法迁移至多模态大模型Vision-R1的实现思路。该方法基于未经专门推理优化的原始多语言大型模型(如Qwen-2.5VL-7B-Instruct),直接应用强化学习(RL)进行训练。训练中使用硬格式结果奖励函数(HFRRF),规定只有当模型输出格式正确且答案正确时,才给予1的奖励;否则为0。目标是激励模型生成多模态连续性文本(CoT),以解决数学推理任务。

多模态模型强化学习奖励函数数学推理连续文本
2025-03-14
揭秘R1-Omni:高透明度多模态模型的技术革新

阿里通义团队近期发布了一款名为R1-Omni的多模态模型,该模型融合了RLVR技术,显著提升了模型的高透明度特性。R1-Omni能够清晰展示音频和视频信息的具体作用,通过RLVR方法的应用,更直观地识别和利用不同模态数据,从而增强其推理能力。这一创新为多模态模型的发展提供了新的方向。

多模态模型R1-OmniRLVR技术高透明度推理能力
2025-03-13
探索艺术与技术的融合:DiffSensei框架的突破与创新

北京大学、上海人工智能实验室和南洋理工大学联合开发了名为DiffSensei的框架,这是首个结合多模态大型语言模型(MLLM)与扩散模型的漫画生成系统。该框架旨在提供定制化的漫画生成服务,并已开源。项目团队还提供了包含4.3万页漫画的大规模数据集,以支持框架的训练和漫画生成过程,为相关领域的研究和发展提供了宝贵资源。

DiffSensei多模态模型漫画生成开源框架大规模数据
2025-03-10
Phi-4-Multimodal:开拓多模态模型新纪元

Phi-4-Multimodal 是一个参数高效的多模态模型,通过LoRA适配器和模式特定的路由器实现文本、视觉及语音/音频数据的无缝集成。该模型采用多阶段优化策略进行训练,确保在不同模态和任务上的高性能表现。其训练数据来源广泛,包括高质量的合成数据,展示了小型语言模型处理多模态任务的巨大潜力。

多模态模型LoRA适配器模式路由器多阶段优化合成数据
2025-03-10
智源BGE-VL:引领多模态模型新篇章

智源BGE-VL是一款由智源与多家顶尖高校联合开发的多模态向量模型。该模型凭借其独特的MegaPairs合成数据技术,在图文检索和组合图像检索等任务中取得了显著进展,刷新了多项基准测试的最高性能记录(SOTA)。这一突破性成果不仅展示了多模态模型的强大潜力,也为相关领域的研究和应用提供了新的方向。

多模态模型智源合作MegaPairs技术图文检索性能记录
2025-03-07
探索智源BGE-VL:多模态向量模型的革命性突破

智源BGE-VL是由智源与多家顶尖高校联合开发的多模态向量模型。该模型凭借创新的MegaPairs合成数据技术,在图文检索和组合图像检索等任务上取得了突破性进展,刷新了当前最佳性能(SOTA)。它在AI检索领域具有革命性意义,能够通过拍照和提问精准搜索,显著提高数据检索的效率和准确性。

智源BGE-VL多模态模型MegaPairs技术图文检索AI搜索
2025-03-07
多模态模型新篇章:国内API模型闭源评测深度解读

司南近期发布了第一期多模态模型闭源评测榜单,涵盖48个模型。此次评测特别引人注目的是3个国内API模型:GLM-4v-Plus-20250111(智谱)、Step-1o(阶跃)和BailingMM-Pro-0120(蚂蚁)。这些模型在各自领域展现了卓越的性能,为多模态技术的发展提供了重要参考。通过这次评测,不仅展示了国内多模态模型的研发实力,也为未来的技术创新奠定了坚实基础。

多模态模型闭源评测国内API智谱模型蚂蚁模型
2025-03-06
多模态模型新篇章:智源研究院推出BGE-VL开源模型

智源研究院与多所高校携手,成功开发了智源开源多模态向量模型BGE-VL。这一成果不仅标志着多模态检索技术的重要进展,也进一步丰富了BGE模型家族。自推出以来,BGE系列模型以其卓越性能和广泛应用前景获得了社区的高度认可。BGE-VL的发布为多模态信息检索领域带来了新的突破,展现了学术界与产业界合作的巨大潜力。

多模态模型智源研究院BGE-VL发布信息检索高校合作
2025-03-06
探索DeepSeek-R1的核心秘诀:突破SFT技术的新篇章

近期,一种显著超越SFT(Sequence-to-Sequence with Teacher Forcing)的技术成为研究焦点。作为o1/DeepSeek-R1的核心秘诀,该技术不仅提升了模型性能,还成功应用于多模态大型模型中,实现了功能扩展。与传统SFT相比,新技术在处理复杂任务时展现出更高的准确性和效率,为多模态数据处理提供了新的解决方案。这一突破性进展标志着人工智能领域的重要进步,预示着未来更多创新应用的可能性。

超越SFT技术DeepSeek-R1多模态模型功能扩展核心技术
2025-03-05
多模态模型革新:GUI智能体与自动化办公的未来

近期,基于多模态大型语言模型(MLLM)构建的GUI智能体在智能设备上实现任务自动化方面引起了广泛关注。这种技术通过重构人机交互方式,能够精准解析跨应用的指令,从而推动自动化办公技术向前发展。用户可以通过自然语言与设备互动,完成复杂任务,极大提高了工作效率和便捷性。

多模态模型GUI智能体任务自动化人机交互自动化办公
2025-03-04
无编码器架构在3D大型多模态模型中的应用革新

在最新的研究中,研究人员深入探讨了无编码器架构在3D大型多模态语言模型(LLM)中的应用潜力。这项创新性研究首次将3D编码器的功能直接集成到LLM中,而非作为独立组件存在。此方法不仅简化了模型架构,还显著提升了模型处理和理解3D数据的效率,表明无编码器架构的潜力可能被低估。

无编码器架构3D数据处理多模态模型模型简化创新方法
2025-02-28
微软Phi-4系列再创新高:小而精模型的崛起

微软Phi-4系列新增两款模型,分别为5.6B参数的多模态单任务模型和3.8B参数的小模型。前者在性能上超越了GPT-4o,后者则与千问7B模型相媲美。尽管当前大模型参数动辄达到百亿、千亿级别,但这些“小而精”的模型依然展现出独特价值。它们不仅优化了资源利用,还在特定任务中表现出色,为业界提供了更多选择。

Phi-4系列多模态模型小而精模型参数对比性能超越
2025-02-27
多模态大型语言模型的创新提升:迈向与人类偏好深度对齐

多模态大型语言模型(MLLMs)在技术进步中取得了显著成果,但顶尖模型与人类偏好的对齐程度仍显不足。当前研究多聚焦于特定领域,如减少幻觉问题,而对模型是否能全面符合人类偏好尚未充分验证。快手、中国科学院和南京大学的研究团队通过10个评估维度的创新研究,打破了这一瓶颈,实现了多模态大模型对齐新范式的全面提升,显著提升了MLLMs的多方面能力。

多模态模型人类偏好对齐程度创新研究评估维度
2025-02-27
深入探索Allenai的Olmocr:多模态文档智能解析的未来

本文探讨了Allenai开源的多模态文档智能解析大模型(Olmocr)的应用方法与效果。对于元素较为简单的RAG文档,使用Olmocr这一端到端的多模态模型是可行的选择。然而,面对版式复杂的文档时,传统解析方法可能更合适。此外,结合pdfparser工具和提示(prompt)的方式能有效提升文档解析的效率与准确性。

多模态模型文档解析OlmocrRAG文档pdfparser
2025-02-27
微软Phi-4系列新成员:赋能未来,引领多模态技术革新

微软公司近期推出了Phi-4系列的两款新模型——Phi-4多模态(Phi-4-multimodal)和Phi-4迷你(Phi-4-mini)。这两款模型旨在显著增强语音、视觉和文本处理能力。Phi-4多模态模型集成了先进的算法,能够更精准地理解和生成多模态内容;而Phi-4迷你则以轻量级设计为特色,适用于资源有限的场景。这些新成员的加入,标志着微软在扩展Phi-4家族方面迈出了重要一步,进一步巩固了其在人工智能领域的领先地位。

Phi-4系列多模态模型语音处理视觉能力文本处理
2025-02-27
国产算力新篇章:DeepSeek R2的突破与革新

据悉,DeepSeek即将提前发布其新一代产品R2。R2将实现100%国产算力部署,硬件完全依赖国内技术,标志着技术自主化的重要进展。此外,R2的能耗预计将降低25%,有助于提高能效和降低运营成本。R2还将采用多模态模型,增强处理不同类型数据的能力。与此同时,DeepSeek宣布开源FP8通用矩阵乘法(GEMM)加速库,支持V3/R1模型的训练和推理,性能达1350+TFLOPS,进一步提升流畅吐字并降低成本。

国产算力能耗降低多模态模型开源加速库高性能GEMM
2025-02-26