近期,香港大学与密歇根大学等机构的研究人员开发了一项新基准测试,填补了评估多模态模型物理推理能力的空白。研究发现,即使是表现优异的GPT-o4 mini模型,在物理推理方面仍显著落后于人类。这一成果为人工智能模型的能力评估提供了更全面的视角,推动了相关技术的发展。
多模态模型在处理复杂任务时的能力备受关注,但其物理推理能力仍显不足。一项新的基准测试表明,即使是表现优异的GPT-o4 mini模型,在物理推理方面的准确率也远低于人类水平。这一发现揭示了当前人工智能技术在理解现实世界物理规律时的局限性,为未来的研究提供了方向。
多模态大型扩散语言模型(MMaDA)凭借其创新的统一扩散架构与先进的后训练策略,在学术界和工业界备受瞩目。该模型不仅在文本推理和多模态理解方面表现出色,还能够高效完成文本到图像生成任务。此外,MMaDA为多模态智能基础模型的发展提供了全新思路,推动了相关技术的革新与进步。
字节跳动与清华大学联合开源了一款名为ChatTS的多模态大型语言模型(LLM)。该模型专注于处理多变量时序数据的问答与推理任务,具备理解和分析随时间变化数据模式的能力,支持时序数据对话与推理,为相关领域提供了强大的工具。
多模态大型语言模型(MLLMs)在文档理解领域取得了显著进展,从简单的图像识别到复杂的理解任务,如DocVQA和ChartQA基准测试,均展现出卓越性能。然而,当前文档理解基准测试存在两大缺陷:一是未能全面覆盖复杂场景,二是缺乏对模型泛化能力的充分评估。这表明,尽管MLLMs表现优异,但文档理解问题远未彻底解决。
字节跳动近期宣布开源GPT-4o级别的图像生成技术,展现了其在开源领域的积极姿态。同时,公司还推出了一款名为BAGEL的多模态模型,该模型集成了图像推理、图像编辑与3D生成等功能,致力于提供统一的解决方案,推动多模态技术的发展。
近日,由香港科技大学、腾讯西雅图AI实验室等机构联合发布了一项新的多模态长文本理解评估基准MMLongBench。该基准专注于测试模型处理长文本的能力。在首次测评中,46款不同模型均未能成功处理128K字的文本挑战,揭示了当前多模态长文本理解技术存在的局限性。
近日,Salesforce开源了多模态模型BLIP3-o,该模型融合自回归与扩散技术,具备强大的图像理解和生成能力。与此同时,OpenAI的GPT-4o在图像处理领域也表现出卓越性能。业内人士推测,未来顶尖模型或将广泛采用类似架构设计,推动多模态技术发展迈入新阶段。
字节跳动与清华大学联合发布了一款名为ChatTS的开源多模态大型语言模型(LLM)。该模型专注于处理多变量时序数据的问答与推理任务,具备深入理解时序信息并生成相关对话的能力,可为用户提供精准的深度推理支持。
普林斯顿大学联合字节跳动Seed、北京大学与清华大学研究团队,共同开发出首个多模态扩散型大语言模型MMaDA。该模型通过三项关键技术革新,成功整合文本推理、多模态理解和图像生成功能,显著提升模型推理能力与可控性,标志着多模态基础模型领域的重要突破。
智源研究院与多所高校合作,近期推出了三款先进的向量模型:BGE-Code-v1专注于代码领域,BGE-VL-v1.5为多模态向量模型,BGE-VL-Screenshot则针对视觉化文档。这些模型均达到当前技术的最高水平(SOTA),并已全面开放使用,旨在推动技术发展与广泛应用。
在ICML 2025 Spotlight会议上,一项研究提出了EMMA基准测试,用于评估多模态大型语言模型(MLLMs)的深度视觉与文本融合能力。研究表明,即使是最先进的MLLMs,在复杂推理方面仍存在显著不足。EMMA基准测试揭示了这些模型在多模态推理中的短板,为未来的研究提供了重要参考。
在ICML 2025的Spotlight环节中,多模态大型模型的能力与局限性成为讨论焦点。通过EMMA基准测试,研究者分析了模型在复杂物理问题中的推理能力。例如,在三个点电荷Q、-2Q和+3Q等距离放置的情况下,确定作用于+Q电荷上的净电力方向。这一问题不仅考验模型对物理规律的理解,还揭示了多模态推理在精确性上的挑战。
颜水成团队提出了一种新的AI能力分级方法,通过五级分类制评估多模态模型的能力。目前,已发布超100款多模态模型,但尚无模型达到L5级别。为明确理想多模态大模型的标准,十所顶尖高校联合发布了General-Level评估框架与General-Bench基准数据集。当前多模态大语言模型在任务支持和模态覆盖上存在不足,通用模型性能仍不及专家模型。实现真正的通用人工智能需依赖不同模态间的协同效应以提升整体性能。
字节跳动近期发布了视觉-语言多模态大模型Seed 1.5-VL,该模型参数量达20亿,在60项公开评测中取得38项最佳成绩(SOTA)。相比前代,Seed 1.5-VL的通用多模态理解和推理能力显著提升,具备更快更准的视觉定位与推理速度,同时新增视频理解及多模态智能体功能,为多领域应用提供了更强支持。
英伟达公司近期发布了Llama-Nemotron系列模型,这是一款基于NVIDIA NeMo的开源AI框架。该框架在大型语言模型(LLM)、多模态模型(MM)、自动语音识别(ASR)、文本转语音(TTS)及计算机视觉(CV)领域表现卓越,专为研究人员与PyTorch开发者设计,具备云原生和可扩展特性,其性能 reportedly 超越DeepSeek-R1。