技术博客

n2.5-VL:引领未来的多模态语言模型解析

n2.5-VL 是阿里云 Qwen 团队开发的多模态大型语言模型,其核心优势在于强大的文档解析能力。该模型不仅将文本识别技术升级为全文档解析,还能够高效处理多场景、多语言及各类复杂格式(如手写、表格和图表等),显著提升了信息提取与理解的精准度。

多模态模型文档解析文本识别阿里云Qwenn2.5-VL
2025-03-25
阿里云开源新突破:Qwen2.5-VL-32B多模态模型引领视觉语言处理新篇章

阿里云近期开源了最新的多模态模型Qwen2.5-VL-32B,该模型在视觉语言处理领域表现出色,并在数学推理方面取得了显著成果。与Mistral-Small-3.1-24B和Gemma-3-27B-IT等开源模型相比,Qwen2.5-VL-32B不仅专注于跨模态任务,在纯文本任务上也达到了同等规模模型的最佳性能水平,为学术界和工业界提供了强大的技术支持。

Qwen2.5-VL-32B多模态模型视觉语言处理数学推理开源模型
2025-03-25
多模态视觉语言模型的突破:rVector的图像与文本转换能力

rVector是一款先进的多模态视觉语言模型,专注于生成可缩放的矢量图形(SVG)。该模型具备将图像转换为SVG格式(image2SVG)以及将文本内容转化为SVG图像(text2SVG)的能力,为用户提供灵活且高效的图形生成解决方案。

多模态模型矢量图形图像转换文本生成SVG格式
2025-03-24
多模态大型语言模型对齐算法的深度解析与应用

本文由院士主导,深入探讨了多模态大型语言模型(LLM)中对齐算法的关键技术。文章从应用场景出发,系统分析了对齐算法的使用情况,阐述了构建对齐数据集的核心要素,并提出了评估对齐算法性能的标准。此外,文章还展望了对齐算法在未来的发展趋势,为相关研究提供了重要参考。

多模态模型对齐算法数据集构建性能评估未来趋势
2025-03-24
iAlign-V:多模态大语言模型的创新对齐工具

iAlign-V 是一款专为多模态大语言模型(MLLMs)设计的对齐增强工具,致力于提升模型与人类偏好的一致性。该工具包含205,000个高质量图像问答对,助力模型学习跨模态任务,同时提供针对DPO优化的负样本数据集,进一步强化模型的数据对齐能力,使其更符合人类预期。

多模态模型图像问答数据对齐负样本数据人类偏好
2025-03-21
中国公司开源之举:揭秘38B参数多模态推理模型的突破

全球首个工业界多模态推理模型现已正式开源!该模型拥有38B参数,性能接近DeepSeek-R1,并在相同规模下超越多项现有最佳技术(SOTA)。这家来自中国的公司选择无偿分享其技术思路,旨在通过开源建立技术影响力,推动多模态技术的广泛应用与发展。

多模态模型开源技术38B参数DeepSeek-R1中国公司
2025-03-19
深入解析:低成本多模态版R1人工智能模型的数学推理能力

基于DeepSeek核心理念构建的多模态版R1人工智能模型,以240元低成本实现了工业级应用标准。该模型专注于数学推理领域,通过两阶段训练方法显著提升复杂数学问题的解决能力。尽管多模态大模型在视觉任务中表现出色,但参数量较少的模型在数学推理场景中往往面临挑战,而R1模型成功突破了这一限制。

多模态模型数学推理DeepSeek理念两阶段训练工业级应用
2025-03-19
开源创新之光:昆仑万维推出work R1V多模态思维链推理模型

昆仑万维公司近期开源了首款工业级多模态思维链推理模型——work R1V。该模型具备强大的视觉思维链功能,可将复杂图像问题分解为多个小步骤进行逻辑推理,同时支持数学与科学分析,能够解决视觉数学问题。这一技术的开放为多模态模型的应用提供了新方向,推动了人工智能领域的进一步发展。

昆仑万维多模态模型视觉思维链数学分析开源技术
2025-03-19
MegatronLM框架:全功能GPU下的混合并行训练革新

MegatronLM框架是一款开源的混合并行训练工具,专为全功能GPU设计。它支持密集型模型、多模态模型以及MoE(混合专家)模型的高效训练。通过FP8混合精度策略与高性能算子的结合,该框架显著优化了训练过程,提升了计算效率和模型性能。

MegatronLM框架混合并行训练全功能GPUFP8混合精度多模态模型
2025-03-19
低成本构建多模态版R1人工智能模型:数学推理能力突破

基于DeepSeek核心理念开发的多模态版R1人工智能模型,仅需240元即可低成本构建,其数学推理能力在两阶段训练方法的加持下显著提升,达到工业级应用标准。尽管多模态大模型在视觉理解任务中表现出色,但参数量较小的模型在深度数学推理任务中往往表现不佳,而该模型成功突破了这一限制。

多模态模型数学推理DeepSeek理念两阶段训练低成本构建
2025-03-19
工业级多模态推理模型开源助力技术共享

全球首个工业级多模态推理模型现已开源,该模型参数规模达38B,性能接近DeepSeek-R1,并在多项指标上超越当前最佳水平(SOTA)。这家中国公司通过无偿开源技术,致力于构建开源社区的技术影响力,推动多模态模型在工业级应用中的技术共享与进步。

多模态模型开源技术工业级应用参数规模技术共享
2025-03-19
开源框架f-Operating Computer:引领多模态模型操作计算机新篇章

f-Operating Computer是一个创新的开源框架,旨在让多模态模型像人类操作员一样通过观察屏幕并执行鼠标和键盘操作来完成任务。该框架的核心优势在于其兼容性和集成性。兼容性使其能够支持多种多模态模型,而集成性则实现了与GPT等先进技术的无缝连接,为智能化操作提供了全新的可能性。

多模态模型开源框架兼容性集成性f-Operating Computer
2025-03-17
探究R1-Onevision:开源多模态模型在视觉推理领域的突破

R1-Onevision 是一款开源的多模态大型语言模型,以其在视觉推理任务中的卓越表现而闻名。该模型不仅在图像理解方面能力突出,还在数学、科学和逻辑推理等多个领域展现了强大的深度推理能力。通过多个推理基准测试,R1-Onevision 的性能得到了充分验证,为相关领域的研究与应用提供了有力支持。

多模态模型视觉推理开源模型逻辑推理图像理解
2025-03-17
探索Self-Operating Computer:开源框架下的多模态模型新篇章

Self-Operating Computer 是一个创新的开源框架,旨在让多模态模型像人类操作员一样控制计算机。该框架通过分析屏幕内容,决定鼠标和键盘的操作以达成目标。其核心优势在于高度兼容性与集成性,可适配多种多模态模型,并已成功与GPT等模型集成,为自动化任务处理提供了全新解决方案。

Self-Operating开源框架多模态模型鼠标键盘兼容集成
2025-03-17
SCoT架构:提升多模态模型的推理能力

研究人员提出了一种名为SCoT的架构,能够自动调整推理链长度以提升模型的推理能力。同时,为优化多模态大型模型在复杂推理任务中的表现,他们还开发了AtomThink框架。该框架覆盖数据构造、训练、推理及评估全流程,专注于解决复杂推理问题,显著增强了模型性能。

SCoT架构AtomThink框架复杂推理任务多模态模型推理能力
2025-03-17
探秘Magma:多模态基础模型的未来之路

Magma是一款先进的多模态基础模型,专为理解和执行涉及数字和物理环境的任务而设计。通过独特的标记集合(SoM)和标记轨迹(ToM)技术,Magma将视觉与语言数据转化为可执行任务,显著增强了空间智能和任务泛化能力。其应用广泛,涵盖UI导航、机器人操作等领域,展示了在具身智能新时代中的全能特性。

多模态模型空间智能任务泛化UI导航机器人操作
2025-03-17