技术博客

大模型微调：何时选择及最佳实践指南

在大模型应用实践中，微调并非首选路径，而是在优化Prompt、引入Few-shot示例或采用RAG（检索增强生成）接入外部知识等轻量方法失效后的补充策略。主流微调技术包括全量微调、LoRA、QLoRA、监督微调（SFT）及直接偏好优化（DPO）。其中，全量微调计算开销大，适用于资源充足的场景；LoRA与QLoRA则通过低秩适配与量化显著降低显存与训练成本；SFT聚焦于指令对齐，DPO则绕过奖励建模，直接优化人类偏好排序。实际选型需权衡效果、效率与部署约束。

全量微调LoRASFTDPORAG

2026-06-30

国产算力突破：AI训练平台的全参数续训技术解析

近期，某AI训练平台项目团队联合多家研究机构与技术服务团队，仅用1个月时间，在国产算力集群上成功实现一款AI模型的全参数续训练（Full-parameter Continued Training）与监督微调（SFT）的稳定运行。训练过程持续超1500步，模型浮点运算利用率（MFU）突破30%，关键训练算子效率提升达14%，显著验证了国产算力支撑大模型深度训练的技术可行性与工程成熟度。

AI训练国产算力全参数续训SFTMFU

2026-05-28

具身智能时代的研发新范式：VLA预训练与大规模RL的融合之路

在具身智能时代，传统大语言模型的“预训练 + SFT + RLHF”黄金范式正被重构。新一代研发框架聚焦于“VLA 预训练/SFT + 大规模 RL 后训练”，强调视觉-语言-动作（VLA）联合建模与真实物理环境中的策略优化。该框架通过多模态预训练夯实感知基础，经监督微调（SFT）对齐任务目标，并依托大规模强化学习（RL）实现闭环交互能力跃迁，显著提升模型在复杂具身场景中的泛化性与鲁棒性。

具身智能VLA预训练SFT大规模RL研发框架

2026-05-13

大型模型训练的多阶段优化策略：从基础SFT到高级蒸馏技术

在大规模语言模型的训练实践中，不存在放之四海而皆准的单一算法。训练流程通常以监督微调（SFT）为起点，构建稳定可靠的基础能力；继而引入梯度惩罚优化（GRPO）或正则化微调（RFT）以进一步提升泛化性与鲁棒性；在资源充裕、性能要求极致的场景中，则可叠加近端策略优化（PPO）与分布式近端优化（DPO）等高级强化学习技术；最终，通过知识蒸馏将大模型所习得的复杂推理能力高效迁移至轻量级模型，实现性能与效率的平衡。

SFTGRPOPPODPO蒸馏

2026-05-11

探讨RLVR与SFT在强化学习中的影响：知识学习与参数空间结构扰动分析

本文探讨了强化学习中的RLVR（基于价值奖励的强化学习）与传统SFT（监督微调）在模型显性知识学习及隐参数空间结构扰动方面的差异。研究表明，RLVR通过动态奖励机制引导模型优化策略，更有利于激发深层知识表征的学习；而SFT依赖标注数据进行静态优化，虽能快速提升显性任务表现，但对参数空间扰动较小，泛化能力受限。进一步分析显示，RLVR在策略优化过程中显著改变参数分布结构，增强模型对复杂语义关系的捕捉能力。

RLVRSFT奖励机制参数空间知识学习

2025-11-26

社交网络新篇章：小红书RedOne 2.0模型的深度解读

小红书NLP团队近期发布社交领域大模型RedOne 2.0，专为社交网络服务（SNS）场景设计。该模型以强化学习（RL）为核心驱动机制，结合轻量级同步过滤技术（SFT），实现对用户行为的高效建模与智能响应。通过“兼听”多源信息输入与“敏行”动态优化策略，RedOne 2.0显著提升了社交互动中的内容理解力与推荐精准度。该模型已在多个实际应用场景中验证其有效性，展现出在社交内容生成、用户意图识别和交互优化方面的强大能力，标志着小红书在垂直领域大模型研发上的重要进展。

RedOneNLP强化学习社交模型SFT

2025-11-18

AI热点

2026-07-03

全面测试方案：保障应用质量与稳定性的关键策略

科技热点

全面测试方案：保障应用质量与稳定性的关键策略