n2.5-VL 是阿里云 Qwen 团队开发的多模态大型语言模型,其核心优势在于强大的文档解析能力。该模型不仅将文本识别技术升级为全文档解析,还能够高效处理多场景、多语言及各类复杂格式(如手写、表格和图表等),显著提升了信息提取与理解的精准度。
阿里云近期开源了最新的多模态模型Qwen2.5-VL-32B,该模型在视觉语言处理领域表现出色,并在数学推理方面取得了显著成果。与Mistral-Small-3.1-24B和Gemma-3-27B-IT等开源模型相比,Qwen2.5-VL-32B不仅专注于跨模态任务,在纯文本任务上也达到了同等规模模型的最佳性能水平,为学术界和工业界提供了强大的技术支持。
rVector是一款先进的多模态视觉语言模型,专注于生成可缩放的矢量图形(SVG)。该模型具备将图像转换为SVG格式(image2SVG)以及将文本内容转化为SVG图像(text2SVG)的能力,为用户提供灵活且高效的图形生成解决方案。
本文由院士主导,深入探讨了多模态大型语言模型(LLM)中对齐算法的关键技术。文章从应用场景出发,系统分析了对齐算法的使用情况,阐述了构建对齐数据集的核心要素,并提出了评估对齐算法性能的标准。此外,文章还展望了对齐算法在未来的发展趋势,为相关研究提供了重要参考。
iAlign-V 是一款专为多模态大语言模型(MLLMs)设计的对齐增强工具,致力于提升模型与人类偏好的一致性。该工具包含205,000个高质量图像问答对,助力模型学习跨模态任务,同时提供针对DPO优化的负样本数据集,进一步强化模型的数据对齐能力,使其更符合人类预期。
全球首个工业界多模态推理模型现已正式开源!该模型拥有38B参数,性能接近DeepSeek-R1,并在相同规模下超越多项现有最佳技术(SOTA)。这家来自中国的公司选择无偿分享其技术思路,旨在通过开源建立技术影响力,推动多模态技术的广泛应用与发展。
基于DeepSeek核心理念构建的多模态版R1人工智能模型,以240元低成本实现了工业级应用标准。该模型专注于数学推理领域,通过两阶段训练方法显著提升复杂数学问题的解决能力。尽管多模态大模型在视觉任务中表现出色,但参数量较少的模型在数学推理场景中往往面临挑战,而R1模型成功突破了这一限制。
昆仑万维公司近期开源了首款工业级多模态思维链推理模型——work R1V。该模型具备强大的视觉思维链功能,可将复杂图像问题分解为多个小步骤进行逻辑推理,同时支持数学与科学分析,能够解决视觉数学问题。这一技术的开放为多模态模型的应用提供了新方向,推动了人工智能领域的进一步发展。
MegatronLM框架是一款开源的混合并行训练工具,专为全功能GPU设计。它支持密集型模型、多模态模型以及MoE(混合专家)模型的高效训练。通过FP8混合精度策略与高性能算子的结合,该框架显著优化了训练过程,提升了计算效率和模型性能。
基于DeepSeek核心理念开发的多模态版R1人工智能模型,仅需240元即可低成本构建,其数学推理能力在两阶段训练方法的加持下显著提升,达到工业级应用标准。尽管多模态大模型在视觉理解任务中表现出色,但参数量较小的模型在深度数学推理任务中往往表现不佳,而该模型成功突破了这一限制。
全球首个工业级多模态推理模型现已开源,该模型参数规模达38B,性能接近DeepSeek-R1,并在多项指标上超越当前最佳水平(SOTA)。这家中国公司通过无偿开源技术,致力于构建开源社区的技术影响力,推动多模态模型在工业级应用中的技术共享与进步。
f-Operating Computer是一个创新的开源框架,旨在让多模态模型像人类操作员一样通过观察屏幕并执行鼠标和键盘操作来完成任务。该框架的核心优势在于其兼容性和集成性。兼容性使其能够支持多种多模态模型,而集成性则实现了与GPT等先进技术的无缝连接,为智能化操作提供了全新的可能性。
R1-Onevision 是一款开源的多模态大型语言模型,以其在视觉推理任务中的卓越表现而闻名。该模型不仅在图像理解方面能力突出,还在数学、科学和逻辑推理等多个领域展现了强大的深度推理能力。通过多个推理基准测试,R1-Onevision 的性能得到了充分验证,为相关领域的研究与应用提供了有力支持。
Self-Operating Computer 是一个创新的开源框架,旨在让多模态模型像人类操作员一样控制计算机。该框架通过分析屏幕内容,决定鼠标和键盘的操作以达成目标。其核心优势在于高度兼容性与集成性,可适配多种多模态模型,并已成功与GPT等模型集成,为自动化任务处理提供了全新解决方案。
研究人员提出了一种名为SCoT的架构,能够自动调整推理链长度以提升模型的推理能力。同时,为优化多模态大型模型在复杂推理任务中的表现,他们还开发了AtomThink框架。该框架覆盖数据构造、训练、推理及评估全流程,专注于解决复杂推理问题,显著增强了模型性能。
Magma是一款先进的多模态基础模型,专为理解和执行涉及数字和物理环境的任务而设计。通过独特的标记集合(SoM)和标记轨迹(ToM)技术,Magma将视觉与语言数据转化为可执行任务,显著增强了空间智能和任务泛化能力。其应用广泛,涵盖UI导航、机器人操作等领域,展示了在具身智能新时代中的全能特性。