MiniMax是一个由闫俊杰领导开发的开源视觉强化学习(RL)框架,能够在推理和感知任务中表现出色,并在MEGA-Bench基准测试中取得了优异成绩。最新发布的V-Triune框架进一步推动了技术发展,使视觉语言模型(VLM)可通过统一的后训练流程联合学习视觉推理与感知任务,为相关领域研究提供了新方向。
近日,国内新兴企业MiniMax推出了一项名为V-Triune的创新技术。作为视觉三重统一的强化学习系统,V-Triune能够在单一训练过程中让视觉语言模型(VLM)同时完成视觉推理与感知任务,为视觉-语言任务提供了高效的统一解决方案。这一技术突破将显著提升模型在多模态任务中的表现,推动人工智能领域的发展。
为了提升视觉语言模型的能力,使其具备类似OpenAI-o3的操作功能,研究者正致力于赋予模型原生的智能体功能。这一发展方向使模型能够调用外部工具,如网页浏览器进行信息搜索,或通过编写和执行代码实现图像处理,从而深入理解与操作图像内容。这种技术进步将为视觉语言模型带来更广泛的应用场景。
强化学习(RL)在视觉-语言模型(VLM)中的应用已显著提升其推理能力。然而,RL在目标检测与定位等感知密集型任务中的潜力仍有待挖掘。通过结合RL技术,VLM不仅能够更好地理解复杂的视觉与语言信息,还能在实际场景中实现更精准的感知任务处理,为未来的研究提供了广阔的空间。
Visual-ARFT是一种由上海交通大学、上海人工智能实验室等机构联合开发的多模态智能体训练方法。该方法专注于提升视觉语言模型(LVLMs)的能力,使其不仅能够理解图像与文本,还能像工具智能体一样执行复杂任务,如搜索和编写代码。这一创新技术为多模态智能体的发展开辟了新路径,推动了人工智能在实际应用场景中的落地。
在ICML 2025会议上,蚂蚁集团与中国人民大学联合发布了一项突破性成果——ViLAMP-7B模型。该视觉语言混合精度模型专注于长视频内容理解,实现了单张显卡处理长达3小时视频的能力,显著提升了超长视频数据的处理效率与实用性。这一创新为长视频领域的技术发展树立了新的里程碑。
在ICML 2025会议上,长视频理解领域迎来重要突破。蚂蚁集团与中国人民大学联合研发的ViLAMP-7B模型,能够处理长达3小时的视频,并在单张显卡上运行。以标清24帧每秒的视频为例,几分钟内可生成超百万视觉token,远超主流大语言模型4K-128K的上下文处理能力,显著提升了视觉语言模型的应用潜力。
FindAnything系统是一种创新的导航解决方案,基于CLIP的视觉语言模型,实现了开放词汇的三维建图与按需探索技术。该系统突破了传统导航方法对封闭语义集合或预构建地图的依赖,使用户能够在复杂未知环境中实现更灵活、动态的导航体验。通过结合视觉与语言理解能力,FindAnything为现实世界的自由探索提供了全新可能。
SmolVLM作为一种轻量化的视觉语言模型,优化了传统大型VLMs(如Flamingo)中超过90%参数分配给语言模型的情况。通过重新平衡视觉与语言的计算资源分配,SmolVLM显著提高了模型效率。其衍生的PDF解析模型SmolDocling进一步拓展了应用场景,为资源有限的环境提供了高效解决方案。
英伟达近期推出了视觉-语言模型Eagle 2.5,该模型拥有8B参数,专注于长上下文处理与多模态学习。其性能可与GPT-4o相媲美,为跨领域应用提供了强大支持,标志着人工智能技术的又一突破。
大连理工大学与莫纳什大学合作开发了一种名为VLIPP的视频生成框架。该框架通过整合视觉语言模型和视频扩散模型,成功将物理规律融入视频生成过程,显著提升了生成视频的物理真实性。这一创新技术为视频生成领域提供了新方向,适用于更广泛的场景。
中国科学技术大学与中兴通讯合作提出了一种新型后训练方法,专注于优化小型多模态模型。该方法成功复现了R1推理和视觉语言模型(VLM)的性能,为当前主流的监督微调(SFT)技术提供了替代方案。通过减少对大规模数据的依赖,这一创新有望降低训练成本,提升模型效率,推动多模态模型在更多场景中的应用。
近期,中国科学院大学与中兴通讯联合提出了一种创新的后训练范式,专注于开发小型多模态模型。尽管这些模型规模较小,但在多模态理解领域表现出显著性能,成功复现了R1推理。随着大型语言模型(LLMs)的发展,多模态理解技术取得了突破性进展。当前,OpenAI、InternVL和Qwen-VL系列等先进的视觉-语言模型(VLMs),在处理复杂视觉-文本任务时展现了卓越能力。
近年来,端到端自动驾驶技术虽取得显著进展,但在复杂交互环境中因因果推理能力受限,决策准确性仍面临挑战。视觉-语言大模型(VLM)以其强大的理解与推理能力为该领域带来新机遇。然而,语义推理空间与行动空间间存在差异。为此,华中科技大学与小米汽车联合开发了自动驾驶框架ORION,通过提升闭环端到端精度达19.61%,有效解决了这一问题。此外,该框架代码将开源,以推动技术进步与广泛应用。
ALIGN是一种创新的视觉语言模型,它利用从网络抓取的HTML页面及其对应的alt-text标签,构建了一个包含18亿对图像-文本的大规模数据集。尽管数据集中存在大量噪声数据,ALIGN模型仍能有效学习,无需昂贵的数据清洗过程,从而实现高效训练。这一技术突破为视觉语言模型的发展提供了新方向。
视觉-语言模型(VLMs)在自动驾驶与医疗诊断等领域应用广泛,但其“幻觉”问题可能生成错误或不一致信息,影响模型可靠性。谷歌联合哥伦比亚大学通过设置三类陷阱触发VLMs幻觉,开发出可动态演进的评估框架,以适应技术发展并提升模型性能。