技术博客

DreamPRM:开启大型语言模型推理能力的新篇章

近日,加州大学圣地亚哥分校(UCSD)提出了一种创新的推理方法——DreamPRM,旨在通过过程奖励模型(PRM)增强大型语言模型的推理能力,在纯文本任务中取得了显著成果。然而,将PRM技术应用于多模态大型语言模型(MLLMs)时,研究人员面临诸多挑战。DreamPRM通过作为“信号放大器”的角色,成功克服了这些难题,并在MathVista测评榜上脱颖而出,有效解决了数据中的“噪音”问题,为多模态模型的发展提供了新方向。

DreamPRM推理方法多模态模型信号放大器MathVista
2025-07-12
MoCa框架:视觉语言模型的双向嵌入革新

近日,研究人员提出了一种名为MoCa的创新框架,该框架能够将传统的单向视觉语言模型转化为双向多模态嵌入模型,从而显著提升模型的理解与生成能力。通过持续的预训练以及异构对比微调,MoCa在多模态任务中展现出优异的性能和泛化能力,尤其在小规模模型上的表现尤为突出,为多模态学习领域带来了新的突破。

MoCa框架视觉语言双向嵌入多模态模型性能提升
2025-07-11
多模态大模型时代的守护者:SAPT技术的安全力量

在多模态大模型迅速发展的背景下,安全性问题日益受到关注。SAPT技术作为一种创新的软提示调优方法,为视觉语言模型(VLM)的安全性提供了有效保障。通过融合先进的技术理念和实践经验,SAPT不仅提升了模型的鲁棒性与可靠性,还为构建更加安全的人工智能系统开辟了新路径。在这一技术的支持下,多模态人工智能的应用前景变得更加广阔。

多模态模型安全性SAPT技术视觉语言软提示调优
2025-07-11
AI赋能科研:SFE基准测试的启示

上海人工智能实验室的AI4S团队推出了一项创新性评测基准——Scientists’ First Exam(简称SFE),用于评估多模态大型语言模型(MLLMs)在多学科和高难度科学专业领域的认知能力。这一基准测试对主流的多模态LLMs提出了严峻挑战,揭示了当前模型在真实科研水平上的局限性。通过SFE,研究者能够更准确地衡量AI系统在复杂科学任务中的表现,推动人工智能技术向更高层次的认知能力发展。

人工智能多模态模型科学评测认知能力科研水平
2025-07-10
vivo BlueLM-2.5-3B:引领端侧多模态模型新篇章

vivo最新推出的端侧多模态模型BlueLM-2.5-3B,以其仅3B的轻量级规模引发了广泛关注。该模型不仅能够高效理解图形用户界面(GUI),还在20项评测中展现了卓越的表现。BlueLM-2.5-3B具备融合文本与图像的理解与推理能力,并支持长短期思考模式的自由切换,为复杂任务提供了更高的灵活性。此外,它还引入了创新的“思考预算”控制机制,以优化性能并提升效率,成为多模态人工智能领域的重要进展。

vivoBlueLM-2.5-3B多模态模型GUI理解思考预算
2025-07-10
vivo AI Lab颠覆性创新:体积仅为3B的多模态模型解析

vivo AI Lab近日发布了一款专为端侧应用设计的人工智能多模态模型,该模型体积仅为3B,在理解和处理图形用户界面(GUI)方面表现出色。在20项性能评测中,这款模型展现出了卓越的表现,凸显了其在人工智能领域的创新潜力。

vivo AI多模态模型端侧应用图形界面性能评测
2025-07-10
多模态模型革新:探索搜索优化新境界

近日,字节跳动与新加坡南洋理工大学(NTU)联合开展的研究,推动了多模态模型在搜索任务中的应用。通过构建网络搜索工具、创建多模态搜索数据集,并引入简单的奖励机制,该研究实现了多模态模型基于端到端强化学习的自主搜索训练。这一技术不仅优化了搜索策略,还显著提升了搜索效率和准确性。实验结果显示,新方法使搜索次数减少了30%,同时提高了结果的相关性和精确度。这项突破为多模态人工智能的发展提供了新的方向。

多模态模型搜索优化强化学习数据集构建端到端训练
2025-07-09
深入探索多模态大型语言模型中的意图推理能力

随着多模态大型语言模型(MLLMs)在各个领域的广泛应用,深入理解和分析人类意图的能力成为研究的重点。尽管强化学习(RL)技术在提升大型语言模型(LLMs)的推理能力方面表现出显著潜力,但在处理复杂的多模态数据时仍面临诸多挑战。HumanOmniV2通过引入上下文强化学习机制,突破了全模态AI理解的边界,为多模态模型提供了更高层次的“意图”推理能力,进一步推动了人工智能对复杂任务的理解和执行。

多模态模型强化学习意图推理上下文学习HumanOmniV2
2025-07-09
多模态模型创新搜索策略:字节跳动与南洋理工大学的突破性研究

字节跳动与新加坡南洋理工大学(NTU)联合开展了一项关于多模态模型搜索策略的最新研究,成功实现了显著优化。研究团队通过构建网络搜索工具、创建专门的多模态搜索数据集,并引入简单的奖励机制,开发出一种基于端到端强化学习的自主搜索训练方法。这一创新使多模态模型能够根据具体需求更智能地进行搜索,在减少约30%搜索量的同时,有效提升了搜索结果的准确性。这项技术突破为多模态人工智能的应用开辟了新的可能性。

多模态模型搜索策略强化学习端到端搜索准确性
2025-07-09
多模态大模型智能体可信度评估新框架:MLA-Trust的深度解析

MLA-Trust 是首个专门针对图形用户界面(GUI)环境中多模态大模型智能体(MLAs)的可信度评估框架。该研究构建了一个全面的评估体系,涵盖真实性、可控性、安全性和隐私性四个关键维度,并设计了34个高风险的交互任务,覆盖网页端和移动端两个测试平台。通过对13个最先进的商用和开源多模态大语言模型智能体的深入评估,研究揭示了 MLAs 在从静态推理向动态交互转变过程中可能出现的可信度风险。

多模态模型可信度评估交互任务隐私安全智能体框架
2025-07-05
上海交通大学与Meta联手打造OS-Kairos系统:智能代理GUI执行优化新篇章

本文介绍了由上海交通大学与Meta合作开发的智能代理系统——OS-Kairos,旨在解决GUI智能体过度执行的问题。该研究由上海交通大学计算机学院三年级博士生程彭洲主导,其研究方向涵盖多模态大模型推理、AI智能代理及智能代理的安全性。系统的通讯作者为张倬胜助理教授和刘功申教授,他们希望通过这一技术提升智能代理在复杂环境中的稳定性和安全性。

OSKairos智能代理GUI优化多模态模型系统安全
2025-07-03
阿里巴巴集团的人工智能新突破:Qwen-VLo多模态模型的免费开放

阿里巴巴集团近日推出了一款名为Qwen-VLo的新型多模态模型,专为不擅长图像编辑的用户设计。该模型不仅免费向所有人开放,还以操作简便著称,标志着阿里巴巴在人工智能领域迈出的重要一步。通过结合多种数据形式,Qwen-VLo能够帮助用户轻松实现高质量的图像处理,让更多人享受到人工智能技术带来的便利。

Qwen-VLo多模态模型图像编辑人工智能阿里巴巴
2025-07-03
开源视觉神经增强技术:破解模型幻觉之谜

在 ACL 2025 会议上,紫东太初提出了一种名为“开源视觉神经增强”的创新技术,旨在有效减少多模态模型中的幻觉现象。该技术通过增强模型中视觉关键注意力头的输出,在不改变原有架构的前提下显著提升了模型的准确性与可靠性。作为一种即插即用的解决方案,“开源视觉神经增强”可以直接应用于各类多模态模型,为当前人工智能领域面临的关键问题之一提供了高效且灵活的应对策略。

紫东太初视觉神经增强模型幻觉多模态模型ACL会议
2025-07-03
生成式人工智能:迈向系统2思维的新征程

生成式人工智能的发展在2023年至2024年间取得了显著进展,标志着多模态模型的不断进化。诸如GPT-4和GPT-4o等模型展现了更强的跨模态理解与生成能力。与此同时,OpenAI的o1模型和DeepSeek的R1模型通过增强复杂推理能力,推动了大型语言模型(LLM)向类似人类的“系统2思维”迈进。值得注意的是,DeepSeek-R1凭借其极高的成本效益和开源特性,挑战了传统AI领域的格局,促进了高级LLM的普及,使获取这些技术变得更加民主化。这一趋势不仅降低了技术门槛,还激发了多个行业的创新潜力。

生成式AI多模态模型系统2思维成本效益模型民主化
2025-06-27
GoT-R1:开启视觉生成推理新范式

近日,由香港大学MMLab、香港中文大学MMLab与商汤科技联合研发的GoT-R1正式发布。作为Generation Chain-of-Thought(GoT)框架的延续,GoT-R1通过引入强化学习技术,实现了多模态大模型在视觉生成任务中的推理先行能力。这一技术突破使模型能够在生成图像之前进行逻辑推理,从而提升生成内容的准确性和合理性。GoT-R1的研究为视觉生成与推理领域带来了新的范式,标志着人工智能在跨模态理解和创作方面迈出了重要一步。

GoT-R1视觉生成推理思考多模态模型强化学习
2025-06-26
多模态模型的架构选型探讨:从UNet到DiT+AR技术

本文探讨了多模态模型在架构设计与技术选型方面的演进,重点分析了从传统的UNet模型到新兴的DiT+AR技术的发展路径。智象未来公司研发负责人潘滢炜指出,团队在推进技术研发时,并不单纯依赖论文成果,而是更加注重实际应用需求和物理世界的构建逻辑。这种以应用场景为导向的研发策略,有助于提升模型的实用性与落地效率。随着人工智能技术的不断迭代,如何在复杂环境中实现多模态数据的有效融合,成为行业关注的核心议题。

多模态模型UNet模型DiT+AR技术实际应用智象未来
2025-06-24
下一页