技术博客

单阶段大模型微调：融合监督与强化学习的创新实践

本文介绍了一种结合监督学习与强化学习的单阶段大模型微调方法，旨在提升大模型的推理能力和泛化能力。该方法由中国科学院和美团等机构的研究者提出，在训练过程中同时利用专家指导和模型自我探索策略，从而有效优化模型性能。实验结果表明，这种创新的微调方式在实际应用中表现出色，为大模型的进一步发展提供了新的思路。

监督学习强化学习大模型微调推理能力泛化能力

2025-07-03

人工智能新篇章：探索大模型微调的革新之路

近日，中国科学院与美团等机构联合提出了一种创新的大模型微调方法，该方法融合了单阶段监督学习与强化学习的优势。通过这一技术，大模型在训练过程中能够同时借鉴专家的演示并进行自主探索试错，从而显著提升了模型的推理能力与泛化性能。这项研究为人工智能领域的发展注入了新的动力，也为大模型的优化提供了全新的思路。

人工智能大模型微调监督学习强化学习泛化性能

2025-07-03

DipLLM：开启复杂策略游戏智能体新篇章

中国科学院自动化研究所开发了一种名为DipLLM的新型博弈智能体框架。该框架专注于复杂策略游戏Diplomacy，并通过大语言模型微调实现了卓越的性能。DipLLM仅使用了Cicero智能体训练数据的1.5%，就在策略制定能力上超越了Cicero，展示了其高效的样本利用效率和强大的智能潜力。这一突破为博弈智能体的研究和应用开辟了新的方向。

DipLLM博弈智能体策略游戏大模型微调样本效率

2025-07-03

大模型微调在推理模型性能提升中的角色变迁

随着推理模型性能的不断提升，部分人工智能应用场景中对大模型微调的需求有所减少。然而，微调作为优化模型以适应特定任务的重要手段，依然在人工智能领域占据关键地位。通过微调，模型能够更精准地满足具体业务需求，提升实际应用效果。因此，在追求性能提升的同时，微调技术仍将是不可或缺的工具。

推理模型大模型微调人工智能应用场景性能提升

2025-05-13

深入浅出：本地部署DeepSeek+DiFy平台构建智能体应用

本文探讨了通过本地部署DeepSeek与DiFy平台构建智能体应用的技术路径，重点分析了大模型微调（Fine-tuning）在其中的关键作用。基于迁移学习策略，利用特定领域数据对预训练模型（如GPT、BERT、LLAMA等）进行二次训练，可显著提升模型在医疗问答、法律文本分析及代码生成等任务中的表现，满足多样化应用场景的需求。

大模型微调智能体应用本地部署迁移学习特定任务

2025-04-14

阿里云企业AI搜索大模型：向量化的智慧与降维的艺术

阿里云在企业AI搜索大模型领域取得了显著进展，通过优化文本向量化、降维及重排序技术，大幅提升搜索效率与精度。自然语言处理技术的应用使文档解析与切片更加智能，而检索增强生成技术进一步强化了模型性能。此外，针对问答大模型的评测与微调，确保了模型在实际场景中的适应性与准确性。

文本向量化自然语言处理搜索降维重排序技术大模型微调

2025-03-21

AI热点

2025-11-15

OpenAI新研究：小型稀疏模型如何提升可解释性

科技热点

OpenAI新研究：小型稀疏模型如何提升可解释性