近期,首个多模态专用慢思考框架在文本推理领域取得了突破性进展,其性能较GPT-o1模型提升了近7个百分点。借助强化学习技术,以GPT-o1和DeepSeek-R1为代表的慢思考模型学会了“三思而后行”,在决策前进行深度分析。与快思考模型(如GPT-4o)相比,慢思考模型在数学和科学任务中展现出显著优势,为复杂问题的解决提供了新思路。
多模态大型扩散语言模型(MMaDA)凭借其创新的统一扩散架构与先进的后训练策略,在学术界和工业界备受瞩目。该模型不仅在文本推理和多模态理解方面表现出色,还能够高效完成文本到图像生成任务。此外,MMaDA为多模态智能基础模型的发展提供了全新思路,推动了相关技术的革新与进步。
普林斯顿大学联合字节跳动Seed、北京大学与清华大学研究团队,共同开发出首个多模态扩散型大语言模型MMaDA。该模型通过三项关键技术革新,成功整合文本推理、多模态理解和图像生成功能,显著提升模型推理能力与可控性,标志着多模态基础模型领域的重要突破。
北京大学与香港科技大学联合团队成功开发了一款名为DeepSeek-R1(Align-DS-V)的多模态人工智能模型。该模型基于自研的全模态框架Align-Anything构建,专注于提升文本推理能力。在视觉理解评测集上,DeepSeek-R1的表现超越了GPT-4o。此外,该模型已开源,为研究者和开发者提供了宝贵资源。