技术博客

单阶段大模型微调:融合监督与强化学习的创新实践

本文介绍了一种结合监督学习与强化学习的单阶段大模型微调方法,旨在提升大模型的推理能力和泛化能力。该方法由中国科学院和美团等机构的研究者提出,在训练过程中同时利用专家指导和模型自我探索策略,从而有效优化模型性能。实验结果表明,这种创新的微调方式在实际应用中表现出色,为大模型的进一步发展提供了新的思路。

监督学习强化学习大模型微调推理能力泛化能力
2025-07-03
人工智能新篇章:探索大模型微调的革新之路

近日,中国科学院与美团等机构联合提出了一种创新的大模型微调方法,该方法融合了单阶段监督学习与强化学习的优势。通过这一技术,大模型在训练过程中能够同时借鉴专家的演示并进行自主探索试错,从而显著提升了模型的推理能力与泛化性能。这项研究为人工智能领域的发展注入了新的动力,也为大模型的优化提供了全新的思路。

人工智能大模型微调监督学习强化学习泛化性能
2025-07-03
DipLLM:开启复杂策略游戏智能体新篇章

中国科学院自动化研究所开发了一种名为DipLLM的新型博弈智能体框架。该框架专注于复杂策略游戏Diplomacy,并通过大语言模型微调实现了卓越的性能。DipLLM仅使用了Cicero智能体训练数据的1.5%,就在策略制定能力上超越了Cicero,展示了其高效的样本利用效率和强大的智能潜力。这一突破为博弈智能体的研究和应用开辟了新的方向。

DipLLM博弈智能体策略游戏大模型微调样本效率
2025-07-03
大模型微调在推理模型性能提升中的角色变迁

随着推理模型性能的不断提升,部分人工智能应用场景中对大模型微调的需求有所减少。然而,微调作为优化模型以适应特定任务的重要手段,依然在人工智能领域占据关键地位。通过微调,模型能够更精准地满足具体业务需求,提升实际应用效果。因此,在追求性能提升的同时,微调技术仍将是不可或缺的工具。

推理模型大模型微调人工智能应用场景性能提升
2025-05-13
深入浅出:本地部署DeepSeek+DiFy平台构建智能体应用

本文探讨了通过本地部署DeepSeek与DiFy平台构建智能体应用的技术路径,重点分析了大模型微调(Fine-tuning)在其中的关键作用。基于迁移学习策略,利用特定领域数据对预训练模型(如GPT、BERT、LLAMA等)进行二次训练,可显著提升模型在医疗问答、法律文本分析及代码生成等任务中的表现,满足多样化应用场景的需求。

大模型微调智能体应用本地部署迁移学习特定任务
2025-04-14
阿里云企业AI搜索大模型:向量化的智慧与降维的艺术

阿里云在企业AI搜索大模型领域取得了显著进展,通过优化文本向量化、降维及重排序技术,大幅提升搜索效率与精度。自然语言处理技术的应用使文档解析与切片更加智能,而检索增强生成技术进一步强化了模型性能。此外,针对问答大模型的评测与微调,确保了模型在实际场景中的适应性与准确性。

文本向量化自然语言处理搜索降维重排序技术大模型微调
2025-03-21