技术博客

多模态慢思考框架:开启文本推理新篇章

近期,首个多模态专用慢思考框架在文本推理领域取得了突破性进展,其性能较GPT-o1模型提升了近7个百分点。借助强化学习技术,以GPT-o1和DeepSeek-R1为代表的慢思考模型学会了“三思而后行”,在决策前进行深度分析。与快思考模型(如GPT-4o)相比,慢思考模型在数学和科学任务中展现出显著优势,为复杂问题的解决提供了新思路。

多模态框架文本推理慢思考模型强化学习数学科学任务
2025-06-07
揭秘MMaDA:多模态大型扩散语言模型的创新架构与后训练策略

多模态大型扩散语言模型(MMaDA)凭借其创新的统一扩散架构与先进的后训练策略,在学术界和工业界备受瞩目。该模型不仅在文本推理和多模态理解方面表现出色,还能够高效完成文本到图像生成任务。此外,MMaDA为多模态智能基础模型的发展提供了全新思路,推动了相关技术的革新与进步。

多模态模型扩散架构文本推理图像生成后训练策略
2025-05-28
多模态扩散型大语言模型MMaDA:开启多模态理解新篇章

普林斯顿大学联合字节跳动Seed、北京大学与清华大学研究团队,共同开发出首个多模态扩散型大语言模型MMaDA。该模型通过三项关键技术革新,成功整合文本推理、多模态理解和图像生成功能,显著提升模型推理能力与可控性,标志着多模态基础模型领域的重要突破。

多模态模型普林斯顿大学字节跳动Seed文本推理图像生成
2025-05-22
多模态AI新突破:北京大学与香港科技大学联手打造DeepSeek-R1

北京大学与香港科技大学联合团队成功开发了一款名为DeepSeek-R1(Align-DS-V)的多模态人工智能模型。该模型基于自研的全模态框架Align-Anything构建,专注于提升文本推理能力。在视觉理解评测集上,DeepSeek-R1的表现超越了GPT-4o。此外,该模型已开源,为研究者和开发者提供了宝贵资源。

多模态AI文本推理视觉理解开源模型高校合作
2025-02-06