技术博客

达摩院 DyDiT 架构:引领视觉生成领域的新突破

在2025年的ICLR会议上,达摩院推出了一种名为DyDiT的视觉生成架构。该架构通过优化时间步长与空间区域资源分配,在几乎不损失生成质量(FID指标稳定)的前提下,成功将DiT模型的推理算力需求降低51%,同时提升生成速度1.73倍,达到当时最先进技术水平(SOTA)。此外,DyDiT已开源,为全球研究者提供了新的技术参考。

DyDiT架构视觉生成推理算力生成速度开源技术
2025-04-25
自回归图像生成模型:复旦大学与字节跳动Seed实验室的开源突破

复旦大学视觉与学习实验室联合字节跳动Seed实验室,推出了一款基于“Next-token prediction”形式的纯自回归图像生成模型。该模型已开源,旨在验证自回归技术在视觉生成领域的潜力。通过优化训练与推理过程,研究者希望此模型能够实现高质量图像生成,并达到与扩散模型相媲美的效果。这一成果为图像生成技术提供了新的探索方向。

自回归模型图像生成复旦大学Seed实验室开源技术
2025-04-21
Orpheus模型:开启语音情感新纪元

受希腊神话乐之神Orpheus启发的同名开源语音模型现已发布。该模型能够赋予大型语言模型(LLM)类似人类的情感表达能力。在配备A100 40GB显卡的硬件支持下,Orpheus模型即使拥有30亿参数,也能实现流式推理速度超过音频播放速度。此外,它还具备zero-shot声音克隆功能,无需额外训练即可复制特定声音,为语音技术领域带来突破性进展。

Orpheus模型语音情感零样本克隆流式推理开源技术
2025-04-15
MCP平台:谷歌引领AI Agent协同新时代

谷歌近期推出了名为“MCP”的开源A2A平台,该平台旨在促进不同厂商开发的AI Agent之间的通信与协作。通过MCP平台,AI Agent能够识别对方功能、协商任务并共同完成复杂工作流程。这一技术为企业提供了全新的解决方案,可通过组建专业的AI Agent团队来优化和处理复杂的业务流程,从而提升效率与创新能力。

MCP平台AI Agent开源技术谷歌推出企业应用
2025-04-10
深度学习新篇章:DeepRetrieval引领信息搜索革新

近日,来自伊利诺伊大学厄巴纳-香槟分校(UIUC)的韩家炜与孙冀萌团队发布了一项名为DeepRetrieval的研究。该研究通过深度学习技术显著提升了信息搜索效率,仅需3B参数的大型语言模型(LLM),即可实现比现有最先进技术高出50个点的性能提升。此外,DeepRetrieval支持端到端学习搜索任务,并已开源,为社区提供了进一步发展的可能。

DeepRetrieval深度学习信息搜索大型语言模型开源技术
2025-04-09
KB:开源知识库问答系统的创新与实践

KB是一款基于开源技术构建的知识库问答系统,融合了大型语言模型(LLMs)与检索-生成(RAG)技术。其衍生产品MaxKB不仅具备强大的工作流程管理能力,还能调用MCP工具,实现与多种主流语言模型的无缝对接,为用户提供高效、智能的服务体验。

知识库系统开源技术语言模型检索生成工作流程
2025-04-08
KB开源知识库问答系统:构建未来问答的基石

KB是一款基于开源技术构建的知识库问答系统,结合了大型语言模型(LLMs)与检索-生成(RAG)技术。其即用型聊天机器人MaxKB不仅支持强大的工作流管理,还具备MCP工具调用功能,并可与多种主流语言模型无缝集成,为企业和个人用户提供高效、灵活的解决方案。

知识库系统开源技术语言模型聊天机器人工作流管理
2025-04-08
AI框架新突破:港理工与新国大联手推进视频理解技术

香港理工大学与新加坡国立大学联合开发了一种全新的AI框架,该框架融合了角色化推理和链式LoRA技术,显著提升了AI对长达27分钟视频内容的理解能力,性能超越GPT-4o。这一突破性成果已开源,为全球AI领域提供了创新解决方案。

AI框架角色化推理链式LoRA视频理解开源技术
2025-04-02
「创新科技」清华蚂蚁联手打造:AReaL-boba,低成本推理模型训练的新突破

由蚂蚁集团与清华大学联合开发的强化学习框架AReaL-boba,成功实现了QwQ数学推理模型的低成本训练。这一创新技术大幅降低了推理模型训练的资源消耗,推动了强化学习在该领域的应用突破。值得一提的是,AReaL-boba的所有数据、代码及模型均已完全开源,为全球研究者提供了宝贵的工具和资源,助力数学推理及相关领域的进一步发展。

强化学习框架开源技术数学推理低成本训练清华蚂蚁合作
2025-04-02
探秘AReaL-boba:开启大型语言模型强化学习新篇章

清华大学与蚂蚁集团联合开源了一款名为AReaL-boba的快速强化学习框架,旨在降低大规模强化学习训练的技术门槛。该框架结合了DeepSeek R1和OpenAI o1等推理模型的新进展,通过后训练扩展法则,为提升大型语言模型性能提供了新动力。这一技术成果以中文发布,预算200美元,致力于让每个人都能轻松掌握强化学习的核心理念。

强化学习框架大型语言模型清华大学蚂蚁集团开源技术
2025-04-01
百灵腾飞:Ling-Lite与Ling-Plus模型的深度解读

蚂蚁Ling团队近期发布了两款MoE模型——Ling-Lite与Ling-Plus,中文名“百灵”。3月7日,这两款模型连同技术论文《Every Flop Counts》一并开源。Ling-Lite拥有168亿参数,激活27.5亿参数;Ling-Plus则具备2900亿参数,激活288亿参数。此系列模型为高效参数激活提供了新思路,推动了开源技术的发展。

Ling模型参数激活开源技术百灵系列MoE模型
2025-03-31
迈向未来:阿里巴巴开源7B全模态模型的深度解析

近日,阿里巴巴集团正式发布并开源了首个端到端全模态大模型——“7B模型”。该模型具备看、听、说、写等全模态功能,可实现AI视频通话中不同模态间的无缝连接。作为一款免费商用的开源技术,7B模型为开发者和企业提供了强大的技术支持,助力多领域创新应用的开发。

全模态模型7B模型开源技术免费商用AI视频通话
2025-03-27
探索未来:清华大学与腾讯共同研发的开源视频生成模型Video-T1

清华大学与腾讯研究团队联合开发了开源视频生成模型Video-T1,首次引入Test-Time Scaling技术,在无需重新训练的情况下显著提升视频生成性能。同时,团队提出Tree-of-Frames方法,进一步拓展了该技术的应用场景,为视频生成领域带来了突破性进展。

视频生成模型Test-Time ScalingTree-of-Frames开源技术性能提升
2025-03-27
深入解析BGE-M3:开源文本嵌入模型的领先者

文本嵌入技术在检索增强生成(RAG)领域具有重要作用。智源研究院发布的BGE-M3模型作为一款开源文本嵌入模型,受到广泛关注。该模型以其高效性和准确性为特征,在多种自然语言处理任务中表现出色,适用于跨领域的应用场景。通过BGE-M3模型,开发者能够更便捷地实现高质量的文本表示,推动了开源技术的发展与应用。

BGE-M3模型文本嵌入开源技术检索增强智源研究院
2025-03-21
UniAct:引领开源具身智能框架技术新篇章

清华大学智能产业研究院(AIR)联合商汤科技研究院等机构,发布了名为UniAct的开源具身智能框架。该框架通过视觉-语言模型(VLM)技术,解决了机器人动作异构一致性问题,显著提升了性能。值得注意的是,UniAct在性能上超越了参数量为其14倍的模型,展现了高效的技术优势。

具身智能框架视觉语言模型开源技术机器人动作性能提升
2025-03-20
开源之光:LightGen模型的创新之路

近日,香港科技大学等机构推出了一款名为LightGen的文本到图像生成模型。该模型通过提升数据多样性、优化小型化模型架构以及改进训练策略,大幅降低了训练成本。即使在有限的数据和计算资源条件下,LightGen仍展现出与当前最先进的文本到图像(T2I)模型相媲美的性能,为相关领域的研究者提供了更低门槛的技术支持。

文本到图像LightGen模型开源技术训练成本数据多样性
2025-03-19