技术博客

异步强化学习新篇章:AReaL-boba²系统的突破与进展

清华大学与蚂蚁集团联合开发的AReaL-boba²全异步强化学习训练系统,通过解耦模型生成与训练流程,显著提升了GPU利用率。该系统在14B规模模型下,于多个代码基准测试中达到SOTA性能,其表现接近235B规模模型,展现了异步强化学习领域的重大突破。

异步强化学习AReaL-boba²系统GPU利用率代码基准测试模型性能提升
2025-06-05
ReLU激活函数的优化之路:解决死亡ReLU问题的新方案

ReLU激活函数虽被广泛使用,但其“死亡ReLU问题”限制了模型性能。新提出的SUGAR模型有效解决了这一缺陷,无需调整模型结构或增加参数量,即可显著提升性能,为深度学习领域提供了创新思路。

ReLU改进死亡ReLU问题SUGAR模型模型性能提升无需增加参数
2025-06-04
ReLU激活函数的回归问题与SUGAR模型的创新解决方案

ReLU激活函数在深度学习中广泛应用,但其存在的“死亡ReLU问题”限制了模型性能。SUGAR模型提供了解决方案,在不更换模型或增加参数量的情况下显著提升性能,为深度学习领域带来了突破性进展。

ReLU激活函数死亡ReLU问题SUGAR模型模型性能提升无需增加参数
2025-06-03
Multi-Token注意力机制:引领模型性能新篇章

近日,Meta公司研究团队提出了一种新型注意力机制——Multi-Token注意力(MTA)。该机制突破了传统单token限制,通过计算多个向量对的相似性,更精准地捕捉信息焦点。这一创新方法显著提升了模型处理复杂任务的能力,为深度学习领域带来了新的可能性。

Multi-Token注意力新型注意力机制Meta研究者多向量相似性模型性能提升
2025-04-07
人工智能领域突破性进展:Transformer架构的创新性改进

近日,人工智能领域迎来重大突破。何恺明与LeCun及清华大学的刘壮合作,对Transformer架构进行了创新性改进。他们通过仅9行代码移除了标准归一化层,不仅未降低模型性能,反而实现了显著提升。这一成果为深度学习模型优化提供了新思路,展现了简化架构设计的巨大潜力。

人工智能进展Transformer改进何恺明合作归一化层移除模型性能提升
2025-03-17
Transformer模型迎来变革:归一化层移除技术解析

在最新的研究进展中,何恺明、LeCun与清华大学姚班的刘壮共同实现了一项重大技术突破。他们仅用9行代码成功移除了Transformer模型中的标准归一化层,这一创新不仅未降低模型性能,反而实现了性能提升。这标志着Transformer架构可能迎来历史性的变革,为深度学习领域开辟了新的可能性。

Transformer突破归一化层移除模型性能提升何恺明研究清华姚班贡献
2025-03-17
InfiniRetri技术革新:大型语言模型的超长文本检索突破

InfiniRetri技术的问世,为大型语言模型在超长文本检索领域带来了突破性进展。该技术无需额外训练,即可将有效上下文token长度从32K扩展至1000K以上,显著提升了模型处理复杂任务的能力。实验表明,借助InfiniRetri,7B参数规模的模型性能可接近72B参数的模型,大幅降低了资源消耗与成本,为高效信息检索提供了全新解决方案。

InfiniRetri技术大型语言模型超长文本检索上下文token扩展模型性能提升
2025-03-17