技术博客

探索开源视觉强化学习：MiniMax框架的革新之路

MiniMax是一个由闫俊杰领导开发的开源视觉强化学习（RL）框架，能够在推理和感知任务中表现出色，并在MEGA-Bench基准测试中取得了优异成绩。最新发布的V-Triune框架进一步推动了技术发展，使视觉语言模型（VLM）可通过统一的后训练流程联合学习视觉推理与感知任务，为相关领域研究提供了新方向。

MiniMax框架视觉强化学习V-Triune框架视觉语言模型MEGA-Bench测试

2025-05-28

“V-Triune技术：引领视觉语言模型的未来趋势”

近日，国内新兴企业MiniMax推出了一项名为V-Triune的创新技术。作为视觉三重统一的强化学习系统，V-Triune能够在单一训练过程中让视觉语言模型（VLM）同时完成视觉推理与感知任务，为视觉-语言任务提供了高效的统一解决方案。这一技术突破将显著提升模型在多模态任务中的表现，推动人工智能领域的发展。

V-Triune技术视觉语言模型强化学习系统视觉推理任务统一解决方案

2025-05-28

视觉语言模型的进化之路：赋予智能体功能的新篇章

为了提升视觉语言模型的能力，使其具备类似OpenAI-o3的操作功能，研究者正致力于赋予模型原生的智能体功能。这一发展方向使模型能够调用外部工具，如网页浏览器进行信息搜索，或通过编写和执行代码实现图像处理，从而深入理解与操作图像内容。这种技术进步将为视觉语言模型带来更广泛的应用场景。

视觉语言模型智能体功能信息搜索编写代码图像处理

2025-05-27

强化学习在视觉-语言模型中的应用与实践

强化学习（RL）在视觉-语言模型（VLM）中的应用已显著提升其推理能力。然而，RL在目标检测与定位等感知密集型任务中的潜力仍有待挖掘。通过结合RL技术，VLM不仅能够更好地理解复杂的视觉与语言信息，还能在实际场景中实现更精准的感知任务处理，为未来的研究提供了广阔的空间。

强化学习视觉语言模型推理能力目标检测感知任务

2025-05-27

突破与创新：Visual-ARFT在视觉语言模型中的实践与应用

Visual-ARFT是一种由上海交通大学、上海人工智能实验室等机构联合开发的多模态智能体训练方法。该方法专注于提升视觉语言模型（LVLMs）的能力，使其不仅能够理解图像与文本，还能像工具智能体一样执行复杂任务，如搜索和编写代码。这一创新技术为多模态智能体的发展开辟了新路径，推动了人工智能在实际应用场景中的落地。

Visual-ARFT多模态智能体视觉语言模型代码编写上海交大

2025-05-27

ViLAMP-7B模型：引领长视频内容理解新篇章

在ICML 2025会议上，蚂蚁集团与中国人民大学联合发布了一项突破性成果——ViLAMP-7B模型。该视觉语言混合精度模型专注于长视频内容理解，实现了单张显卡处理长达3小时视频的能力，显著提升了超长视频数据的处理效率与实用性。这一创新为长视频领域的技术发展树立了新的里程碑。

ViLAMP-7B模型长视频理解视觉语言模型ICML 2025会议单显卡处理

2025-05-13

ViLAMP-7B模型：引领长视频理解领域新突破

在ICML 2025会议上，长视频理解领域迎来重要突破。蚂蚁集团与中国人民大学联合研发的ViLAMP-7B模型，能够处理长达3小时的视频，并在单张显卡上运行。以标清24帧每秒的视频为例，几分钟内可生成超百万视觉token，远超主流大语言模型4K-128K的上下文处理能力，显著提升了视觉语言模型的应用潜力。

长视频理解ViLAMP-7B模型视觉语言模型百万视觉token单张显卡运行

2025-05-13

FindAnything：开启三维导航新纪元

FindAnything系统是一种创新的导航解决方案，基于CLIP的视觉语言模型，实现了开放词汇的三维建图与按需探索技术。该系统突破了传统导航方法对封闭语义集合或预构建地图的依赖，使用户能够在复杂未知环境中实现更灵活、动态的导航体验。通过结合视觉与语言理解能力，FindAnything为现实世界的自由探索提供了全新可能。

FindAnything系统视觉语言模型开放词汇建图按需探索技术三维导航体验

2025-05-06

轻量化VLM-SmolVLM模型：优化资源分配与提升效率的新思路

SmolVLM作为一种轻量化的视觉语言模型，优化了传统大型VLMs（如Flamingo）中超过90%参数分配给语言模型的情况。通过重新平衡视觉与语言的计算资源分配，SmolVLM显著提高了模型效率。其衍生的PDF解析模型SmolDocling进一步拓展了应用场景，为资源有限的环境提供了高效解决方案。

轻量化模型视觉语言模型资源分配SmolVLM架构PDF解析模型

2025-04-30

英伟达Eagle 2.5：引领视觉-语言模型新篇章

英伟达近期推出了视觉-语言模型Eagle 2.5，该模型拥有8B参数，专注于长上下文处理与多模态学习。其性能可与GPT-4o相媲美，为跨领域应用提供了强大支持，标志着人工智能技术的又一突破。

英伟达Eagle视觉语言模型多模态学习8B参数GPT-4o媲美

2025-04-23

VLIPP：引领视频生成新篇章——大连理工与莫纳什大学的创新合作

大连理工大学与莫纳什大学合作开发了一种名为VLIPP的视频生成框架。该框架通过整合视觉语言模型和视频扩散模型，成功将物理规律融入视频生成过程，显著提升了生成视频的物理真实性。这一创新技术为视频生成领域提供了新方向，适用于更广泛的场景。

视频生成框架物理真实性视觉语言模型视频扩散模型大连理工合作

2025-04-18

中国科学技术大学与中兴通讯联手创新：小型多模态模型的后训练方法解读

中国科学技术大学与中兴通讯合作提出了一种新型后训练方法，专注于优化小型多模态模型。该方法成功复现了R1推理和视觉语言模型（VLM）的性能，为当前主流的监督微调（SFT）技术提供了替代方案。通过减少对大规模数据的依赖，这一创新有望降低训练成本，提升模型效率，推动多模态模型在更多场景中的应用。

后训练方法多模态模型视觉语言模型监督微调小型模型

2025-04-15

小型多模态模型：后训练范式的革新之路

近期，中国科学院大学与中兴通讯联合提出了一种创新的后训练范式，专注于开发小型多模态模型。尽管这些模型规模较小，但在多模态理解领域表现出显著性能，成功复现了R1推理。随着大型语言模型（LLMs）的发展，多模态理解技术取得了突破性进展。当前，OpenAI、InternVL和Qwen-VL系列等先进的视觉-语言模型（VLMs），在处理复杂视觉-文本任务时展现了卓越能力。

多模态模型后训练范式视觉语言模型小型模型性能复杂任务处理

2025-04-14

端到端自动驾驶技术的突破与挑战：视觉-语言大模型的融合之道

近年来，端到端自动驾驶技术虽取得显著进展，但在复杂交互环境中因因果推理能力受限，决策准确性仍面临挑战。视觉-语言大模型（VLM）以其强大的理解与推理能力为该领域带来新机遇。然而，语义推理空间与行动空间间存在差异。为此，华中科技大学与小米汽车联合开发了自动驾驶框架ORION，通过提升闭环端到端精度达19.61%，有效解决了这一问题。此外，该框架代码将开源，以推动技术进步与广泛应用。

自动驾驶技术视觉语言模型因果推理能力语义推理空间开源框架ORION

2025-04-11

ALIGN模型：如何通过噪声图像文本数据实现高效训练

ALIGN是一种创新的视觉语言模型，它利用从网络抓取的HTML页面及其对应的alt-text标签，构建了一个包含18亿对图像-文本的大规模数据集。尽管数据集中存在大量噪声数据，ALIGN模型仍能有效学习，无需昂贵的数据清洗过程，从而实现高效训练。这一技术突破为视觉语言模型的发展提供了新方向。

视觉语言模型图像文本数据噪声数据高效训练ALIGN模型

2025-04-11

视觉语言模型的'幻觉'问题：挑战与对策

视觉-语言模型（VLMs）在自动驾驶与医疗诊断等领域应用广泛，但其“幻觉”问题可能生成错误或不一致信息，影响模型可靠性。谷歌联合哥伦比亚大学通过设置三类陷阱触发VLMs幻觉，开发出可动态演进的评估框架，以适应技术发展并提升模型性能。

视觉语言模型模型可靠性幻觉问题评估框架技术发展

2025-03-31

AI热点

2025-05-29

Tokei：探索代码工程的高效统计工具

科技热点

Tokei：探索代码工程的高效统计工具