技术博客

异步强化学习新篇章：AReaL-boba²系统的突破与进展

清华大学与蚂蚁集团联合开发的AReaL-boba²全异步强化学习训练系统，通过解耦模型生成与训练流程，显著提升了GPU利用率。该系统在14B规模模型下，于多个代码基准测试中达到SOTA性能，其表现接近235B规模模型，展现了异步强化学习领域的重大突破。

异步强化学习AReaL-boba²系统GPU利用率代码基准测试模型性能提升

2025-06-05

ReLU激活函数的优化之路：解决死亡ReLU问题的新方案

ReLU激活函数虽被广泛使用，但其“死亡ReLU问题”限制了模型性能。新提出的SUGAR模型有效解决了这一缺陷，无需调整模型结构或增加参数量，即可显著提升性能，为深度学习领域提供了创新思路。

ReLU改进死亡ReLU问题SUGAR模型模型性能提升无需增加参数

2025-06-04

ReLU激活函数的回归问题与SUGAR模型的创新解决方案

ReLU激活函数在深度学习中广泛应用，但其存在的“死亡ReLU问题”限制了模型性能。SUGAR模型提供了解决方案，在不更换模型或增加参数量的情况下显著提升性能，为深度学习领域带来了突破性进展。

ReLU激活函数死亡ReLU问题SUGAR模型模型性能提升无需增加参数

2025-06-03

Multi-Token注意力机制：引领模型性能新篇章

近日，Meta公司研究团队提出了一种新型注意力机制——Multi-Token注意力（MTA）。该机制突破了传统单token限制，通过计算多个向量对的相似性，更精准地捕捉信息焦点。这一创新方法显著提升了模型处理复杂任务的能力，为深度学习领域带来了新的可能性。

Multi-Token注意力新型注意力机制Meta研究者多向量相似性模型性能提升

2025-04-07

人工智能领域突破性进展：Transformer架构的创新性改进

近日，人工智能领域迎来重大突破。何恺明与LeCun及清华大学的刘壮合作，对Transformer架构进行了创新性改进。他们通过仅9行代码移除了标准归一化层，不仅未降低模型性能，反而实现了显著提升。这一成果为深度学习模型优化提供了新思路，展现了简化架构设计的巨大潜力。

人工智能进展Transformer改进何恺明合作归一化层移除模型性能提升

2025-03-17

Transformer模型迎来变革：归一化层移除技术解析

在最新的研究进展中，何恺明、LeCun与清华大学姚班的刘壮共同实现了一项重大技术突破。他们仅用9行代码成功移除了Transformer模型中的标准归一化层，这一创新不仅未降低模型性能，反而实现了性能提升。这标志着Transformer架构可能迎来历史性的变革，为深度学习领域开辟了新的可能性。

Transformer突破归一化层移除模型性能提升何恺明研究清华姚班贡献

2025-03-17

InfiniRetri技术革新：大型语言模型的超长文本检索突破

InfiniRetri技术的问世，为大型语言模型在超长文本检索领域带来了突破性进展。该技术无需额外训练，即可将有效上下文token长度从32K扩展至1000K以上，显著提升了模型处理复杂任务的能力。实验表明，借助InfiniRetri，7B参数规模的模型性能可接近72B参数的模型，大幅降低了资源消耗与成本，为高效信息检索提供了全新解决方案。

InfiniRetri技术大型语言模型超长文本检索上下文token扩展模型性能提升

2025-03-17

AI热点

2025-11-17

信息垃圾的深渊：AI性能退化的隐忧

科技热点

信息垃圾的深渊：AI性能退化的隐忧