技术博客

宇树科技近日宣布，其机器人强化学习代码全面开源，不仅在英伟达的Issac Gym平台上提供了训练代码，还新增了对MuJoCo仿真环境的支持。这一举措为开发者提供了从训练到仿真再到实际操作的详细教程，进一步推动了机器人技术的发展。

2024-12-17

在图像处理领域，最新的研究成果与大型语言模型（LLM）的结合再次取得突破。西湖大学的研究人员提出了一种名为图像链CoT的技术，该技术与OpenAI的微调技术理念相碰撞，显著提升了图像生成的质量和效率。同时，MAPLE实验室通过强化学习方法优化了图像生成模型的去噪过程，使得模型能够在更少的推理步骤中生成高质量的图像。这项技术在多个图像生成模型上都显示出了减少推理步骤和提升图像质量的潜力。

图像链CoT技术去噪强化学习高质量

2024-12-16

探究K1模型：引领视觉思考新篇章

Kimi AI系统最新推出的视觉思考模型K1，据称比之前的O1模型更为先进。K1模型采用强化学习技术，具备端到端的图像理解和思维链技术能力，并且其应用范围已经从数学领域扩展到更多基础科学领域。这一突破性进展为科学研究提供了新的工具和方法，有望在多个领域带来重大影响。

K1模型视觉思考强化学习图像理解基础科学

2024-12-16

揭秘Claude 3.5超大杯版本：内部用途与研发进展

最新情报显示，Claude 3.5超大杯版本并未在训练中失败。相反，该版本被保留用于内部用途，具体包括合成数据和强化学习（RL）训练。据semianalysis分析师透露，Claude 3.5超大杯被内部隐藏，仅用于数据合成和强化学习奖励建模。

Claude 3.5内部用途数据合成强化学习奖励建模

2024-12-12

微调技术革新：RFT的崛起与模型性能的飞跃

微调技术的新发展引起了广泛关注，其中RFT（强化微调）尤为突出。与传统的微调方法不同，RFT不仅调整模型参数，更注重训练模型进行思考和推理。OpenAI的研究主管Mark Chen表示，RFT通过强化学习算法，能够显著提升模型的性能，使其从基础水平跃升至专家级水平。

微调技术RFT强化学习模型性能专家级

2024-12-10

“开启智能创作新篇章：北交开源项目O1代码版深度解读”

本文介绍了北交开源项目O1代码版，该项目结合了强化学习和蒙特卡洛树搜索技术。项目的核心包括开源源代码、精选数据集以及衍生模型。特别地，文章强调了过程奖励模型（PRM）的重要性，该模型用于评估每一步推理对最终答案的贡献。在测试用例生成器（TCG）提供的结果奖励和PRM提供的过程奖励的双重引导下，策略模型通过强化学习不断优化和改进。

开源项目强化学习蒙特卡洛过程奖励测试用例

2024-12-09

自然语言强化学习：开启智能决策新篇章

在人工智能领域，强化学习（RL）凭借其坚实的数学基础，成功解决了许多复杂的决策问题，尤其是在围棋、国际象棋和机器人控制等应用场景中取得了显著成就。最近，自然语言强化学习（NLRL）作为一种新型的强化学习框架，能够处理语言反馈，标志着在人工智能发展史上的又一重大突破。

强化学习自然语言决策问题围棋机器人

2024-12-09

深入探索强化学习：AlphaZero与Gemini的演进之路

在与Google DeepMind的资深科学家的对话中，我们了解到强化学习是当前研究的重点。尽管大模型时代已经到来，但AlphaZero在其中仍然扮演着重要角色。从AlphaZero到Gemini，研究领域已从棋盘游戏扩展到更多影响人们现实生活的领域。在探讨通用人工智能（AI）的过程中，科学家们深入讨论了其中的“思考游戏”（Thinking Game），这为未来AI的发展提供了新的思路。

强化学习AlphaZeroGemini思考游戏通用AI

2024-12-06

Lilian Weng深度解析：大型模型在RL训练中的奖励欺骗问题

Lilian Weng在离开OpenAI后发布了她的首篇博客文章，引起了业界的广泛关注。这篇文章深入探讨了大型语言模型在强化学习（RL）训练中遇到的奖励欺骗问题。随着语言模型在多种任务上的泛化能力不断增强，以及强化学习人类反馈（RLHF）逐渐成为训练对齐的主流方法，识别和解决奖励欺骗问题已成为语言模型RL训练中的一个核心挑战。

奖励欺骗强化学习语言模型RLHFLilian

2024-12-06

流式深度学习技术的进展与挑战

流式深度学习技术近年来取得了显著进展，强化学习领域的先驱Richard Sutton对此表示高度认可。研究表明，批量深度强化学习之所以广泛应用，主要是因为它具有较高的样本效率。然而，流式深度强化学习在样本效率方面面临挑战，经常遭遇不稳定性和学习失败的问题，这种现象被称为流式障碍。

流式学习深度学习样本效率强化学习流式障碍

2024-11-29

强化学习技术在数据中心节能节水中的应用与创新

Meta公司采用强化学习技术对其数据中心的环境控制系统进行了优化，旨在提高能源和水资源的使用效率，以应对全球气候变化问题。通过实施该技术，试点地区的数据中心能耗降低了20%，用水量减少了4%。这一成果不仅有助于减少碳排放，还为其他行业提供了可借鉴的经验。

Meta强化学习数据中心节能节水

2024-11-26

DeepSeek-R1-Lite：国产类O1模型的突破与创新

DeepSeek近日推出了首款国产类O1模型——DeepSeek-R1-Lite，现已免费向公众开放。这款自研预览版模型采用了强化学习方法进行训练，在推理过程中能够进行深入的思考和验证，其思维链的长度甚至可以达到数万字。这一创新举措不仅展示了DeepSeek在人工智能领域的技术实力，也为广大用户提供了强大的工具支持。

DeepSeekR1-Lite国产预览版强化学习

2024-11-25

DIAMOND智能体：揭开强化学习在虚拟环境中的高效之谜

近日，一种名为DIAMOND的新型强化学习智能体在虚拟环境中展现了卓越的学习与任务掌握能力。该智能体通过在扩散模型构建的虚拟环境中进行训练，在Atari 100k基准测试中，其平均得分超过了人类玩家，展示了其在复杂模拟环境中处理细节和做出高效决策的强大能力。

DIAMOND强化学习虚拟环境Atari 100k决策能力

2024-11-18

Karpathy的语言模型预言：深度学习的未来轨迹

在2015年，Andrej Karpathy 曾经发表了一篇论文，预见到语言模型的巨大潜力。尽管如此，他最终选择专注于强化学习领域。这篇论文不仅展示了他对未来技术发展的深刻洞察，还为当前大型语言模型时代的发展奠定了基础。通过回顾这篇论文，我们可以更好地理解 Karpathy 的观点和见解，以及它们如何影响了今天的 AI 领域。

语言模型Karpathy强化学习论文预示

2024-11-18

灵初智能：天使轮融资推动机器人技能训练革新

灵初智能公司近日宣布完成其天使轮融资，由高瓴资本和蓝驰创投领投。此次融资将助力公司在基于强化学习算法的机器人技能训练、场景化数据生成与采集，以及端到端解决方案的研发和实施方面取得更大进展。灵初智能致力于构建业界领先的通用灵巧操作智能体，推动具身智能技术的发展。

灵初智能天使轮强化学习机器人具身智能

2024-11-13

Llama版o1：上海AI实验室的开源强化学习新篇章

Llama版o1 是由上海AI实验室推出的一款创新AI产品，其设计灵感源自于在围棋领域取得重大突破的AlphaGo Zero。该产品采用了先进的强化学习技术，并已将相关代码开源，旨在推动人工智能技术的发展，促进开源社区的合作与交流。

Llama版o1上海AI开源强化学习AlphaGo

2024-11-05

AI热点

2025-05-15

Node.js中的阻塞与非阻塞I/O机制：性能提升的关键

科技热点

Node.js中的阻塞与非阻塞I/O机制：性能提升的关键