由Transformer模型原创者创立的公司近日发布了名为ShinkaEvolve的开源框架,该框架在大型语言模型(LLM)训练效率方面实现了突破性进展。ShinkaEvolve显著提升了LLM的样本效率,实现高达数十倍的优化,极大缩短了模型迭代周期。其核心技术在于使LLM具备自我编写代码以优化自身性能的能力,同时保持运行高效,为进化计算领域注入强劲动力,堪称该领域的“加速器”。这一成果有望推动AI模型研发向更高效、自主的方向发展。
中国科学院自动化研究所开发了一种名为DipLLM的新型博弈智能体框架。该框架专注于复杂策略游戏Diplomacy,并通过大语言模型微调实现了卓越的性能。DipLLM仅使用了Cicero智能体训练数据的1.5%,就在策略制定能力上超越了Cicero,展示了其高效的样本利用效率和强大的智能潜力。这一突破为博弈智能体的研究和应用开辟了新的方向。
在复杂推理任务中,传统监督微调(SFT)方法难以充分挖掘大型模型的潜力。近期,由CMU等机构华人学者团队提出了一种名为“批判式微调”(CFT)的新方法。该方法仅需50K样本训练,在多数基准测试中超越了需200万以上样本的强化学习方法,显著提升了样本效率与模型性能,为SFT性能提升提供了创新路径。
在最新研究中,李飞飞团队提出了一种创新方法,通过仅使用1000个样本对模型进行微调,并引入“预算强制”技术,显著提升了人工智能模型的推理性能。该技术使s1-32B模型在多个基准测试中超越了OpenAI的o1-preview闭源模型,成为样本效率最高的推理模型。这项研究打破了提升大模型推理性能必须依赖大量数据和算力的传统观念,为人工智能领域提供了新的解决方案。
流式深度学习技术近年来取得了显著进展,强化学习领域的先驱Richard Sutton对此表示高度认可。研究表明,批量深度强化学习之所以广泛应用,主要是因为它具有较高的样本效率。然而,流式深度强化学习在样本效率方面面临挑战,经常遭遇不稳定性和学习失败的问题,这种现象被称为流式障碍。




