技术博客

达摩院 DyDiT 架构：引领视觉生成领域的新突破

在2025年的ICLR会议上，达摩院推出了一种名为DyDiT的视觉生成架构。该架构通过优化时间步长与空间区域资源分配，在几乎不损失生成质量（FID指标稳定）的前提下，成功将DiT模型的推理算力需求降低51%，同时提升生成速度1.73倍，达到当时最先进技术水平（SOTA）。此外，DyDiT已开源，为全球研究者提供了新的技术参考。

DyDiT架构视觉生成推理算力生成速度开源技术

2025-04-25

自回归图像生成模型：复旦大学与字节跳动Seed实验室的开源突破

复旦大学视觉与学习实验室联合字节跳动Seed实验室，推出了一款基于“Next-token prediction”形式的纯自回归图像生成模型。该模型已开源，旨在验证自回归技术在视觉生成领域的潜力。通过优化训练与推理过程，研究者希望此模型能够实现高质量图像生成，并达到与扩散模型相媲美的效果。这一成果为图像生成技术提供了新的探索方向。

自回归模型图像生成复旦大学Seed实验室开源技术

2025-04-21

Orpheus模型：开启语音情感新纪元

受希腊神话乐之神Orpheus启发的同名开源语音模型现已发布。该模型能够赋予大型语言模型（LLM）类似人类的情感表达能力。在配备A100 40GB显卡的硬件支持下，Orpheus模型即使拥有30亿参数，也能实现流式推理速度超过音频播放速度。此外，它还具备zero-shot声音克隆功能，无需额外训练即可复制特定声音，为语音技术领域带来突破性进展。

Orpheus模型语音情感零样本克隆流式推理开源技术

2025-04-15

MCP平台：谷歌引领AI Agent协同新时代

谷歌近期推出了名为“MCP”的开源A2A平台，该平台旨在促进不同厂商开发的AI Agent之间的通信与协作。通过MCP平台，AI Agent能够识别对方功能、协商任务并共同完成复杂工作流程。这一技术为企业提供了全新的解决方案，可通过组建专业的AI Agent团队来优化和处理复杂的业务流程，从而提升效率与创新能力。

MCP平台AI Agent开源技术谷歌推出企业应用

2025-04-10

深度学习新篇章：DeepRetrieval引领信息搜索革新

近日，来自伊利诺伊大学厄巴纳-香槟分校（UIUC）的韩家炜与孙冀萌团队发布了一项名为DeepRetrieval的研究。该研究通过深度学习技术显著提升了信息搜索效率，仅需3B参数的大型语言模型（LLM），即可实现比现有最先进技术高出50个点的性能提升。此外，DeepRetrieval支持端到端学习搜索任务，并已开源，为社区提供了进一步发展的可能。

DeepRetrieval深度学习信息搜索大型语言模型开源技术

2025-04-09

KB：开源知识库问答系统的创新与实践

KB是一款基于开源技术构建的知识库问答系统，融合了大型语言模型（LLMs）与检索-生成（RAG）技术。其衍生产品MaxKB不仅具备强大的工作流程管理能力，还能调用MCP工具，实现与多种主流语言模型的无缝对接，为用户提供高效、智能的服务体验。

知识库系统开源技术语言模型检索生成工作流程

2025-04-08

KB开源知识库问答系统：构建未来问答的基石

KB是一款基于开源技术构建的知识库问答系统，结合了大型语言模型（LLMs）与检索-生成（RAG）技术。其即用型聊天机器人MaxKB不仅支持强大的工作流管理，还具备MCP工具调用功能，并可与多种主流语言模型无缝集成，为企业和个人用户提供高效、灵活的解决方案。

知识库系统开源技术语言模型聊天机器人工作流管理

2025-04-08

AI框架新突破：港理工与新国大联手推进视频理解技术

香港理工大学与新加坡国立大学联合开发了一种全新的AI框架，该框架融合了角色化推理和链式LoRA技术，显著提升了AI对长达27分钟视频内容的理解能力，性能超越GPT-4o。这一突破性成果已开源，为全球AI领域提供了创新解决方案。

AI框架角色化推理链式LoRA视频理解开源技术

2025-04-02

「创新科技」清华蚂蚁联手打造：AReaL-boba，低成本推理模型训练的新突破

由蚂蚁集团与清华大学联合开发的强化学习框架AReaL-boba，成功实现了QwQ数学推理模型的低成本训练。这一创新技术大幅降低了推理模型训练的资源消耗，推动了强化学习在该领域的应用突破。值得一提的是，AReaL-boba的所有数据、代码及模型均已完全开源，为全球研究者提供了宝贵的工具和资源，助力数学推理及相关领域的进一步发展。

强化学习框架开源技术数学推理低成本训练清华蚂蚁合作

2025-04-02

探秘AReaL-boba：开启大型语言模型强化学习新篇章

清华大学与蚂蚁集团联合开源了一款名为AReaL-boba的快速强化学习框架，旨在降低大规模强化学习训练的技术门槛。该框架结合了DeepSeek R1和OpenAI o1等推理模型的新进展，通过后训练扩展法则，为提升大型语言模型性能提供了新动力。这一技术成果以中文发布，预算200美元，致力于让每个人都能轻松掌握强化学习的核心理念。

强化学习框架大型语言模型清华大学蚂蚁集团开源技术

2025-04-01

百灵腾飞：Ling-Lite与Ling-Plus模型的深度解读

蚂蚁Ling团队近期发布了两款MoE模型——Ling-Lite与Ling-Plus，中文名“百灵”。3月7日，这两款模型连同技术论文《Every Flop Counts》一并开源。Ling-Lite拥有168亿参数，激活27.5亿参数；Ling-Plus则具备2900亿参数，激活288亿参数。此系列模型为高效参数激活提供了新思路，推动了开源技术的发展。

Ling模型参数激活开源技术百灵系列MoE模型

2025-03-31

迈向未来：阿里巴巴开源7B全模态模型的深度解析

近日，阿里巴巴集团正式发布并开源了首个端到端全模态大模型——“7B模型”。该模型具备看、听、说、写等全模态功能，可实现AI视频通话中不同模态间的无缝连接。作为一款免费商用的开源技术，7B模型为开发者和企业提供了强大的技术支持，助力多领域创新应用的开发。

全模态模型7B模型开源技术免费商用AI视频通话

2025-03-27

探索未来：清华大学与腾讯共同研发的开源视频生成模型Video-T1

清华大学与腾讯研究团队联合开发了开源视频生成模型Video-T1，首次引入Test-Time Scaling技术，在无需重新训练的情况下显著提升视频生成性能。同时，团队提出Tree-of-Frames方法，进一步拓展了该技术的应用场景，为视频生成领域带来了突破性进展。

视频生成模型Test-Time ScalingTree-of-Frames开源技术性能提升

2025-03-27

深入解析BGE-M3：开源文本嵌入模型的领先者

文本嵌入技术在检索增强生成（RAG）领域具有重要作用。智源研究院发布的BGE-M3模型作为一款开源文本嵌入模型，受到广泛关注。该模型以其高效性和准确性为特征，在多种自然语言处理任务中表现出色，适用于跨领域的应用场景。通过BGE-M3模型，开发者能够更便捷地实现高质量的文本表示，推动了开源技术的发展与应用。

BGE-M3模型文本嵌入开源技术检索增强智源研究院

2025-03-21

UniAct：引领开源具身智能框架技术新篇章

清华大学智能产业研究院（AIR）联合商汤科技研究院等机构，发布了名为UniAct的开源具身智能框架。该框架通过视觉-语言模型（VLM）技术，解决了机器人动作异构一致性问题，显著提升了性能。值得注意的是，UniAct在性能上超越了参数量为其14倍的模型，展现了高效的技术优势。

具身智能框架视觉语言模型开源技术机器人动作性能提升

2025-03-20

开源之光：LightGen模型的创新之路

近日，香港科技大学等机构推出了一款名为LightGen的文本到图像生成模型。该模型通过提升数据多样性、优化小型化模型架构以及改进训练策略，大幅降低了训练成本。即使在有限的数据和计算资源条件下，LightGen仍展现出与当前最先进的文本到图像（T2I）模型相媲美的性能，为相关领域的研究者提供了更低门槛的技术支持。

文本到图像LightGen模型开源技术训练成本数据多样性

2025-03-19

AI热点

2025-07-07

新型能量模型：AI领域效率革新的前沿探索

科技热点

新型能量模型：AI领域效率革新的前沿探索