技术博客

ShinkaEvolve：引领语言模型进化的新篇章

由Transformer模型原创者创立的公司近日发布了名为ShinkaEvolve的开源框架，该框架在大型语言模型（LLM）训练效率方面实现了突破性进展。ShinkaEvolve显著提升了LLM的样本效率，实现高达数十倍的优化，极大缩短了模型迭代周期。其核心技术在于使LLM具备自我编写代码以优化自身性能的能力，同时保持运行高效，为进化计算领域注入强劲动力，堪称该领域的“加速器”。这一成果有望推动AI模型研发向更高效、自主的方向发展。

TransformerShinkaLLM进化计算样本效率

2025-09-29

DipLLM：开启复杂策略游戏智能体新篇章

中国科学院自动化研究所开发了一种名为DipLLM的新型博弈智能体框架。该框架专注于复杂策略游戏Diplomacy，并通过大语言模型微调实现了卓越的性能。DipLLM仅使用了Cicero智能体训练数据的1.5%，就在策略制定能力上超越了Cicero，展示了其高效的样本利用效率和强大的智能潜力。这一突破为博弈智能体的研究和应用开辟了新的方向。

DipLLM博弈智能体策略游戏大模型微调样本效率

2025-07-03

突破SFT性能局限：批判式微调的新视角

在复杂推理任务中，传统监督微调（SFT）方法难以充分挖掘大型模型的潜力。近期，由CMU等机构华人学者团队提出了一种名为“批判式微调”（CFT）的新方法。该方法仅需50K样本训练，在多数基准测试中超越了需200万以上样本的强化学习方法，显著提升了样本效率与模型性能，为SFT性能提升提供了创新路径。

SFT性能提升批判式微调复杂推理样本效率华人学者

2025-03-10

推理性能革新：预算强制技术引领AI模型微调新篇章

在最新研究中，李飞飞团队提出了一种创新方法，通过仅使用1000个样本对模型进行微调，并引入“预算强制”技术，显著提升了人工智能模型的推理性能。该技术使s1-32B模型在多个基准测试中超越了OpenAI的o1-preview闭源模型，成为样本效率最高的推理模型。这项研究打破了提升大模型推理性能必须依赖大量数据和算力的传统观念，为人工智能领域提供了新的解决方案。

推理性能预算强制样本效率微调技术闭源模型

2025-02-06

流式深度学习技术的进展与挑战

流式深度学习技术近年来取得了显著进展，强化学习领域的先驱Richard Sutton对此表示高度认可。研究表明，批量深度强化学习之所以广泛应用，主要是因为它具有较高的样本效率。然而，流式深度强化学习在样本效率方面面临挑战，经常遭遇不稳定性和学习失败的问题，这种现象被称为流式障碍。

流式学习深度学习样本效率强化学习流式障碍

2024-11-29

AI热点

2025-11-17

信息垃圾的深渊：AI性能退化的隐忧

科技热点

信息垃圾的深渊：AI性能退化的隐忧