技术博客

腾讯AI新突破：低成本GRPO技术引领AI训练变革

腾讯公司近期推出了一项突破性的低成本人工智能训练技术——无训练组相对策略优化（Training-Free GRPO）。该技术显著降低了大模型智能体的训练成本，仅需120元人民币即可实现传统微调方案70000元的效果，成本降幅超过99%。这一创新不仅提升了AI模型升级的效率，也为大规模AI应用的落地提供了更具可行性的解决方案。GRPO技术的推出标志着腾讯AI在高效训练方法上的重要进展，有望推动整个行业向更经济、更可持续的方向发展。

腾讯AI低成本训练技术GRPO大模型

2025-10-16

深度揭秘：权重错配问题与强化学习中的挑战

最新研究显示，快手与清华大学合作团队在结果监督强化学习领域发现了一种深层次的权重错配问题。该问题导致模型在训练过程中对特定策略赋予过高权重，从而引发过度自信行为，削弱了策略的探索能力。研究表明，这种错配会进一步诱发熵坍缩现象，使输出分布趋于单一化，并导致训练过程过早收敛，影响模型最终性能。通过理论分析与实验验证，研究团队揭示了权重错配的成因及其对学习动态的负面影响，为改进现有强化学习框架提供了重要思路。

权重错配强化学习过度自信熵坍缩过早收敛

2025-10-16

RiskPO：引领大型模型训练的新方向

北京大学彭一杰教授领导的课题组提出了一种名为RiskPO的新方法，旨在通过风险度量优化改进大型模型的训练过程。与传统方法追求奖励平均值不同，RiskPO创新性地聚焦于奖励分布的左尾部分，即模型表现较差的困难任务，将风险规避理念融入优化目标。该方法有效引导模型识别并克服推理过程中的薄弱环节，显著提升其在复杂场景下的鲁棒性与稳定性，为大型模型的高效训练提供了新的技术路径。

RiskPO风险优化左尾奖励彭一杰模型训练

2025-10-16

探索条件表征学习新方法：文本基与图像映射的结合

本文提出一种名为条件表征学习的新方法，通过将图像表征映射到由特定准则定义的文本基所张成的空间中，实现更具表现力的条件表征。该方法有效提升了表征在多种下游任务中的适应性与性能，在NeurIPS 2025 Spotlight会议上获得展示，展现了其在跨模态学习中的潜力。

条件表征文本基图像映射表征学习下游任务

2025-10-16

迈向新纪元：具身智能领域的ImageNet时刻

具身智能领域迎来了其“ImageNet时刻”，RoboChallenge项目首次发布了全球首个大规模、多任务的真实机器人基准测试集。该测试集突破性地要求真实机器人在复杂物理环境中完成多样化操作任务，标志着具身智能从仿真走向现实应用的重要转折。这一里程碑式进展为算法评估提供了统一标准，极大推动了机器人感知、决策与执行能力的协同发展，被视为该领域迈向标准化与规模化发展的关键一步。

具身智能ImageNet时刻RoboChallenge真实机器人基准测试

2025-10-16

Router-R1：引领多轮LLM协同工作新篇章

首个多轮LLM路由系统Router-R1正式问世，标志着大型语言模型协作范式的重大突破。Router-R1并非依赖单一“更大模型”，而是通过“思考-路由-聚合”的创新机制，实现多个模型间的高效协同。该系统能够在多轮交互中动态分配任务，提升推理精度与响应效率，为复杂任务处理提供全新解决方案。Router-R1的推出，推动了LLM在实际应用中的智能化与模块化发展。

LLM路由Router-R1多轮协同思考路由模型聚合

2025-10-16

人工智能发展的困境与挑战：Sutton的深刻见解

在最新访谈中，人工智能研究先驱Sutton与多位领域专家深入探讨了当前AI发展面临的核心挑战。他重申此前观点，认为“大型语言模型（LLM）是一条死胡同”，指出LLM依赖海量数据和算力却缺乏真正的理解能力，难以实现通用人工智能的突破。专家们一致认为，当前AI研究正陷入模仿表层模式的瓶颈，缺乏对因果推理、环境交互和持续学习机制的深入探索。此外，过度集中于优化现有模型架构，忽视基础理论创新，进一步加剧了研究停滞。该讨论揭示了AI从“感知智能”迈向“认知智能”过程中所面临的深刻困境，呼吁学界回归长期主义，重视根本性技术路径的探索。

AI挑战LLM困境Sutton观点人工智能研究瓶颈

2025-10-16

稀疏注意力机制：大模型降成本与提效率的关键

稀疏注意力机制是大模型中实现降成本与提效率的核心技术之一。传统注意力机制在处理长序列时面临计算复杂度呈平方级增长的问题，严重制约模型的训练与推理效率。稀疏注意力通过限制模型仅关注输入序列中的关键部分，大幅减少需计算的注意力权重数量，从而显著降低计算开销。该机制在保持模型性能的同时，优化了资源分配，提升了处理效率，广泛应用于大规模语言模型中，成为突破计算瓶颈的关键手段。

稀疏注意大模型降成本提效率计算复杂

2025-10-16

《突破传统局限：南洋理工大学MMLab的Visual Jigsaw后训练法》

南洋理工大学MMLab提出的《Visual Jigsaw Post-Training Improves MLLMs》介绍了一种创新的多模态大模型后训练方法——Visual Jigsaw。该方法通过将图像分割为拼图块并要求模型重建原始布局，使AI在无标注数据的情况下通过“玩拼图游戏”提升视觉理解能力。这一策略突破了传统以文本为中心的训练范式，有效增强了模型对空间结构和局部-整体关系的感知。实验表明，Visual Jigsaw在多个视觉理解任务中显著提升了模型性能，为多模态大模型提供了一种高效、低成本的后训练新路径。

拼图训练视觉理解后训练多模态无标注

2025-10-16

AI医疗新突破：利用Cell2Sentence-Scale 27B模型助力癌症免疫疗法

谷歌与耶鲁大学联合开发了一种名为Cell2Sentence-Scale 27B的大型人工智能模型，致力于提升癌症免疫疗法的效果。该AI模型专注于识别并增强特定免疫环境中的免疫信号，尤其针对“冷肿瘤”——即免疫系统难以识别和攻击的肿瘤类型。通过分析复杂的细胞交互数据，该技术显著提升了药物发现的效率，为激活抗肿瘤免疫反应提供了新路径。这一突破有望推动个性化癌症治疗的发展，在AI医疗与免疫疗法融合的背景下，为难治性癌症带来新的治疗希望。

AI医疗免疫疗法冷肿瘤癌症治疗药物发现

2025-10-16

深入剖析Jeddak AgentArmor：构建安全可靠的AI代理

为应对人工智能代理日益突出的安全挑战，字节跳动安全研究团队推出了Jeddak AgentArmor安全框架，旨在从本质上提升AI代理的安全性。该框架通过建立严格的行为规则体系，规范AI代理的决策与行动路径，有效防范潜在风险行为。在AgentArmor的支持下，AI代理能够在复杂环境中实现可解释、可控制、可审计的运行机制，从而构建高度可信的AI系统。这一框架不仅强化了AI系统的内在安全性，也为行业提供了可复用的可信AI建设路径。

AI安全AgentArmor可信AI行为规则安全框架

2025-10-16

北京信息通信业的人工智能新应用：创新探索与实践

北京信息通信业正加速推进人工智能技术在多场景的深度应用，依托“北京AI”产业优势，构建涵盖智慧城市、智能交通、工业互联网等领域的新型智能应用场景。2023年，北京通信行业研发投入超180亿元，其中人工智能相关项目占比达45%。通过5G与AI融合，已实现低时延智能监控、自动化网络运维和AI客服系统等创新应用，服务覆盖超2000万用户。运营商联合科技企业在北京亦庄、中关村等地开展智能基站调度、AI能耗优化等试点，网络效率提升30%以上。未来，北京将持续探索通信与AI深度融合的新路径，推动形成可复制、可推广的智能场景解决方案。

北京AI通信业新应用智能场景探索

2025-10-16

全球气候变迁的关键转折点：碳排放的遏制与生态危机的破解

全球气候变迁正面临关键转折点，气候变暖持续加剧，过去十年（2013–2022）成为有记录以来最热的十年，全球平均气温较工业化前上升约1.15°C。碳排放是主要驱动因素，2022年全球二氧化碳排放量达368亿吨，能源燃烧占比超过75%。极端天气事件频发，2023年全球因气候相关灾害造成的经济损失超3000亿美元。生态危机日益严峻，联合国报告指出，全球约100万种物种面临灭绝威胁。为应对挑战，能源转型成为核心路径，可再生能源在全球发电结构中的占比已提升至30%。

气候变暖碳排放极端天气能源转型生态危机

2025-10-16

服务型制造的创新驱动与未来发展

近日，工业和信息化部、国家发展改革委、教育部、财政部、人力资源社会保障部、商务部、国务院国资委等七部门联合发布《关于加快推动服务型制造创新发展的指导意见》，明确提出到2025年，我国服务型制造示范企业数量将显著增加，重点行业服务收入占企业总收入比重进一步提升。文件强调通过技术创新、模式创新和服务创新，推动制造业与服务业深度融合，培育一批具有国际竞争力的领军企业，助力制造业高质量发展。

服务型制造七部门创新发展联合

2025-10-16

“三年倍增”行动方案：赋能行业快速增长之道

近日，六部门联合发布了一项名为“三年倍增”的行动方案，旨在通过系统化举措推动相关领域实现跨越式发展。该方案明确了未来三年内的增长目标，聚焦政策协同、资源整合与创新驱动，力求在关键指标上实现翻番。行动方案涵盖产业优化、技术升级、人才培养等多个维度，并制定了分阶段实施路径和评估机制，确保目标落地。此次跨部门协作体现了国家层面对该领域的高度重视，预计将显著提升行业整体竞争力，为经济高质量发展注入新动能。

三年倍增六部门行动方案增长目标联合发布

2025-10-16

科学探索的迷思：追求最佳解释而非绝对真理

科学探索的本质在于持续追寻在现有条件下最合理的解释，而非追求绝对正确的答案。科学知识具有显著的动态性，其核心在于证据驱动的理论构建与更新。随着观测技术的进步和新数据的积累，原有的理论可能被修正甚至取代，例如从牛顿力学到相对论的发展，正是科学不断优化“最佳解释”的体现。因此，科学的进步并非线性抵达真理，而是在不断质疑、验证与迭代中逼近更完善的理解。

科学探索动态知识最佳解释理论更新证据驱动

2025-10-16

AI热点

2025-11-21

利用Firebase Studio构建全栈应用程序的实践指南

科技热点

利用Firebase Studio构建全栈应用程序的实践指南