技术博客

探究DeepSeek R1：强化学习与ChatGPT的内部世界

大神卡帕西拿近期发布了关于DeepSeek R1的强化学习主题视频。该视频时长三个半小时，内容深入浅出，无需技术背景即可轻松理解。视频详细讲解了包括ChatGPT在内的大型语言模型内部机制，涵盖模型训练全过程、实际应用技巧及AI未来发展等多方面内容，为观众提供了全面而专业的知识分享。

DeepSeek R1强化学习ChatGPT模型训练AI未来

2025-02-06

Tülu 3模型：新一代开源模型的突破与创新

艾伦人工智能研究所（Ai2）近日推出了一款名为Tülu 3的新一代开源模型。该模型基于强化学习技术，拥有405B参数，在性能上不仅与GPT-4o相当，更在多项关键基准测试中超越了DeepSeek v3，成功打破了性能瓶颈。这一突破为人工智能领域带来了新的可能性，标志着开源模型在技术上的重大进步。

Tülu 3模型开源模型强化学习405B参数性能超越

2025-02-05

DeepSeek R1技术演进全景解析：从Zero到R1的跨越

DeepSeek R1简易指南概述了从DeepSeek-R1-Zero到DeepSeek-R1的技术演进历程。DeepSeek-R1-Zero通过纯强化学习验证了其有效性，奠定了技术基础。在此基础上，DeepSeek-R1进一步引入监督学习，实现了更高效、实用的模型构建，标志着技术的重大进步。

DeepSeek R1技术演进强化学习监督学习模型构建

2025-02-03

深入解析LLM范式：AI2研究所的新突破

本文探讨了开启LLM（大型语言模型）新范式的奥秘。AI2研究所的科学家Nathan Lambert深入分析了当前语言推理领域的进展，指出OpenAI在o1模型训练中，强化学习技术起到了关键作用。通过不断优化算法和模型架构，LLM不仅提升了语言理解能力，还在多种应用场景中展现出卓越性能，标志着AI领域的重要突破。

LLM范式语言模型AI2研究所强化学习OpenAI进展

2025-02-03

全球AI模型发展的新转折：DeepSeek模型的复现热潮

全球范围内，DeepSeek模型的复现热潮正在兴起。加州大学伯克利分校、香港科技大学及HuggingFace等机构已成功实现该模型的复现，且仅依赖强化学习技术，未采用监督微调方法。令人瞩目的是，用户仅需30美元即可体验这一先进技术带来的“啊哈时刻”，这可能成为全球AI大型模型发展的一个新转折点。

DeepSeek模型复现热潮强化学习低成本体验AI新转折

2025-01-26

自适应世界模型AdaWM：解决自动驾驶强化学习效能下降的新方案

本研究介绍了一种名为AdaWM的先进规划方法，该方法基于自适应世界模型，旨在解决自动驾驶领域中强化学习（RL）依赖世界模型时出现的效能下降问题。AdaWM通过自适应机制优化了世界模型的构建，从而提高了自动驾驶系统的规划性能，达到了新的最优化水平（SOTA）。这一创新方法不仅增强了系统的稳定性和可靠性，还显著提升了自动驾驶车辆在复杂环境中的应对能力。

AdaWM方法自适应模型自动驾驶强化学习规划性能

2025-01-26

揭秘Kimi硬刚多模态满血版o1：开启强化学习新纪元

近日，Kimi硬刚多模态满血版o1的训练细节首次曝光。这一成就标志着强化学习领域迎来了新的scaling范式。值得注意的是，这是除OpenAI之外，首个多模态模型在数学和代码能力上达到满血版o1水平。Kimi的成功不仅展示了其强大的技术实力，也为未来多模态模型的发展提供了宝贵的经验和参考。

Kimi训练多模态模型满血版o1强化学习数学代码

2025-01-21

纯强化学习之光：DeepSeek-R1-Zero模型的突破与启示

DeepSeek-R1-Zero是一个完全依赖纯强化学习（RL）训练的AI模型，未使用任何监督微调数据。该模型在推理能力方面取得了令人瞩目的成果，成为AI自主学习领域的重要里程碑。它展示了通过自我学习完成复杂任务的巨大潜力，证明了强化学习在推动AI进步中的关键作用。

强化学习自主学习DeepSeek推理能力AI模型

2025-01-21

清华大学研究团队突破强化学习难题：DSAC-T系列算法的进展

清华大学的研究团队在强化学习领域取得了显著进展。他们开发了DSAC及其改进版本DSAC-T系列算法，有效解决了过估计问题，提升了学习效果的稳定性。此外，团队还提出了DACER算法，该算法结合扩散模型与在线强化学习，进一步提升性能。为了增强训练稳定性，团队开发了RAD优化器。这些成果将集成到开源软件GOPS中，促进具身智能技术的发展。

强化学习DSAC算法DACER算法RAD优化器开源软件

2025-01-17

深度强化学习：构建《超级马里奥兄弟》智能系统之路

深度强化学习是计算机科学的前沿领域，广泛应用于计算机视觉和自然语言处理。本文聚焦于深度学习在游戏领域的应用，特别是构建智能系统以自主学习完成经典游戏《超级马里奥兄弟》。通过深度强化学习算法，智能体能够不断优化策略，在复杂的游戏环境中取得更高分数。该技术不仅展示了人工智能在游戏中的潜力，也为其他领域的应用提供了宝贵经验。

深度学习强化学习游戏应用超级马里奥智能系统

2025-01-14

一万元预算突破：清华研究团队在数学推理领域的重大进展

清华大学的研究团队以8张显卡和一万元人民币的预算，成功使7B模型在数学推理任务上超越了GPT-4。这一成果展示了基于探索的强化学习技术的巨大潜力，可能预示着新的扩展规律的发展方向。此研究不仅证明了高效利用资源的可能性，还为未来的人工智能发展提供了新的思路。

清华研究显卡预算数学推理强化学习扩展规律

2025-01-13

深入解析循环状态空间模型（RSSM）：强化学习的未来

循环状态空间模型（Recurrent State Space Models, RSSM）是强化学习领域的一种先进状态空间建模技术，由Danijar Hafer等人提出。RSSM通过结合循环神经网络和状态空间模型的优势，能够从像素级输入中学习潜在动态，并用于规划和决策。该模型在处理部分可观测环境时表现出色，显著提升了智能体的学习效率和泛化能力。本文将介绍RSSM的基本概念、工作原理及其在强化学习中的应用，并提供基于PyTorch框架的实现方法。

循环模型状态空间强化学习PyTorch实像素规划

2025-01-09

低成本突破：PRIME方法引领强化学习新篇章

清华大学NLP实验室、上海AI实验室、清华大学电子系和OpenBMB社区的联合团队提出了一种创新的强化学习方法——PRIME（Process Reinforcement through IMplicit REwards）。该方法通过引入过程奖励机制，使7B模型在数学任务上的表现超越了GPT-4。尤为引人注目的是，这一突破性成果仅耗资一万块钱，展示了低成本实现高效能的技术路径。

PRIME方法强化学习过程奖励7B模型低成本突破

2025-01-06

OpenAI核心机密揭示：中国研究者的人工智能新突破

近日，复旦大学等机构的研究者发表了一篇关于OpenAI公司核心机密的论文，在人工智能领域引起了广泛关注。该研究从强化学习角度出发，深入分析了实现OpenAI的o1模型的路线图，并梳理了现有的开源版本o1模型。文章还暗示，OpenAI的o1和o3模型的秘密可能已被中国研究者破解，这一发现或将对全球AI技术发展产生深远影响。

OpenAI机密中国研究者复旦大学强化学习o1模型

2025-01-06

清华大学汪玉教授团队突破无人机控制策略难题

清华大学高能效计算实验室的汪玉教授及其团队在无人机控制策略领域取得了重要突破。通过引入强化学习技术，他们成功将无人机的轨迹跟踪误差降低了50%，并实现了从模拟环境到真实世界的零样本泛化。这一成果显著提升了无人机在复杂环境中的适应能力，为具身智能的发展提供了新的思路。通讯作者汪玉教授和于超博士后专注于强化学习与具身智能的研究，推动了该领域的前沿进展。

无人机控制强化学习轨迹误差零样本泛化具身智能

2024-12-27

OpenAI自主研发人形机器人：开启数据增强新篇章

OpenAI公司近期被披露正自主研发人形机器人。四年前，因数据不足解散相关团队后，OpenAI如今重返该领域，计划通过机器人收集的数据增强其大型模型。除投资Figure、1x和Physical Intelligence等机器人初创公司外，OpenAI的算法团队也在深入研究机器人强化学习。目前，该公司正涉足硬件开发，致力于打造具备双臂双腿的实体人形机器人，以实现更广泛的应用和技术突破。

人形机器人OpenAI公司数据收集强化学习硬件开发

2024-12-25

AI热点

2025-05-15

探索RAG模型中的语义不连贯问题与SAT模型的解决方案

科技热点

探索RAG模型中的语义不连贯问题与SAT模型的解决方案