技术博客

一窥未来编程：Multi-SWE-bench多语言代码修复开源数据集的突破

豆包团队近期宣布，其开发的首个用于评估和增强大型语言模型自动修复软件缺陷能力的多语言代码修复基准数据集Multi-SWE-bench已正式开源。这一数据集支持多种编程语言，为提升模型在软件缺陷检测与修复领域的性能提供了重要资源。通过开放Multi-SWE-bench，豆包团队希望促进全球开发者及研究者共同推动代码修复技术的发展。

多语言代码修复开源数据集软件缺陷大型语言模型自动修复能力

2025-04-10

MCP协议革新：Gemini模型携手Anthropic公司引领语言模型新趋势

继OpenAI之后，谷歌的Gemini模型也将支持由Anthropic公司开发的MCP协议。MCP（Model Context Protocol）是一种开源协议，旨在实现大型语言模型与外部数据源和工具的安全双向集成。这一协议为大模型与数据源之间的协作提供了新标准，推动了人工智能技术的进一步发展。

MCP协议Gemini模型OpenAIAnthropic公司大型语言模型

2025-04-10

深入剖析Agentic RAG技术：提升大型语言模型的知识获取与内容生成能力

Agentic RAG技术作为一种创新方法，显著提升了大型语言模型（LLMs）的知识获取与内容生成能力。通过智能增强检索生成，该技术在人工智能领域展现出广泛的应用前景。它不仅优化了模型对复杂信息的理解，还提高了生成内容的准确性和相关性，为各行业提供了更高效的解决方案。

Agentic RAG大型语言模型知识获取内容生成人工智能

2025-04-10

技术决策的关键：大型语言模型的选择困境

在引入大型语言模型解决业务挑战时，技术团队常面临关键决策：选择基于检索的生成（RAG）还是模型微调。这一决定直接影响AI解决方案的效果与效率。基于检索的生成通过结合现有数据和预训练模型提供灵活响应，而微调则能针对特定任务优化模型性能，但需更多计算资源和时间投入。两者各有优劣，需根据具体业务需求和技术条件权衡。

大型语言模型技术决策基于检索生成模型微调AI解决方案

2025-04-09

构建强化学习训练流程以优化大型语言模型：策略与实践

来自上海交通大学、MiniMax、复旦大学和SII的研究团队，正致力于构建一个针对大型语言模型（VLM）的基础性强化学习（RL）训练流程。该流程强调可复制性、教育性和监控性，并对规模扩展策略进行深入反思与优化。通过暂停现有工作重新思考，研究团队旨在为未来的大规模应用提供更高效的解决方案。

强化学习大型语言模型训练流程规模扩展研究团队

2025-04-09

语言模型的革新之争：Kaggle科学家的大型语言模型宣言

近日，Kaggle前首席科学家声称自己创造了首个大型语言模型（LLM），此言论在AI学术界掀起轩然大波。面对技术圈的激烈争论，如何用一句话反击显得尤为重要。有人提出：“若真是首例创造者，为何当时未见相关论文或代码？”这一质问直击核心，令对方难以回应。在技术争议中，精准的逻辑与事实依据往往是制胜关键。

大型语言模型AI学术界技术争论一句话反击Kaggle科学家

2025-04-09

Llama 4的五大疑点解析：AI技术发展的隐忧

Llama 4的发布引发了业界对其五大疑点的深入探讨，尤其在推理能力方面受到广泛质疑。有AI公司CEO指出，该模型可能标志着模型规模增长（Scaling）时代的终结，暗示全球AI技术进步或面临停滞风险。这一现象促使人们重新思考大型语言模型的实际应用与未来发展路径。

Llama 4疑点AI技术停滞模型规模增长大型语言模型推理能力质疑

2025-04-09

路由LLM技术革新：动态路由在大型语言模型中的应用与评估

一种名为“路由LLM”的新技术通过动态路由机制，将请求高效分配给8500多个大型语言模型（LLM）。该技术基于2亿条性能数据，覆盖12个主流基准测试表现，显著提升了处理效率与准确性。同时，文章介绍了开源的全面基准测试工具RouterEval，用于评估路由器设计的性能，为相关研究提供了重要参考。

路由LLM动态路由性能数据RouterEval大型语言模型

2025-04-09

深度学习新篇章：DeepRetrieval引领信息搜索革新

近日，来自伊利诺伊大学厄巴纳-香槟分校（UIUC）的韩家炜与孙冀萌团队发布了一项名为DeepRetrieval的研究。该研究通过深度学习技术显著提升了信息搜索效率，仅需3B参数的大型语言模型（LLM），即可实现比现有最先进技术高出50个点的性能提升。此外，DeepRetrieval支持端到端学习搜索任务，并已开源，为社区提供了进一步发展的可能。

DeepRetrieval深度学习信息搜索大型语言模型开源技术

2025-04-09

个性化对齐语言模型的革新：深入解读用户内在动机

近日，首个实现个性化对齐的大型语言模型正式发布，该模型能够精准识别用户的内在动机与偏好。同时，蚂蚁集团联合中国人民大学推出一个包含百万用户画像的开源数据集，助力大型模型更深入地理解并适应人类需求，推动人工智能技术迈向新高度。

个性化对齐大型语言模型用户画像内在动机开源数据集

2025-04-08

个性化对齐：大型语言模型的未来趋势

首个实现个性化对齐的大型语言模型已正式发布，该模型能够精准识别用户的内在动机与偏好。同时，蚂蚁集团与中国人民大学联合推出的百万用户画像开源数据集也已上线。这项研究首次系统性地探讨了大规模个性化偏好对齐的范式，为满足多样化的人类需求提供了全新可能。

个性化对齐大型语言模型用户画像开源数据集人类需求

2025-04-08

个性化对齐：大型语言模型的技术革新

首个实现个性化对齐的大型语言模型已正式发布，该模型能够精准识别用户的内在动机与偏好。与此同时，蚂蚁集团联合中国人民大学推出一个包含百万用户画像的开源数据集，助力大型语言模型更深入地理解人类行为和需求，推动人工智能技术迈向新阶段。

个性化对齐大型语言模型用户画像内在动机开源数据集

2025-04-08

知识图谱驱动的监督微调：重塑大型语言模型的知识处理能力

中国科学技术大学MIRA实验室的王杰教授团队开发了知识图谱驱动的监督微调（KG-SFT）框架，旨在增强大型语言模型（LLMs）在特定领域内的知识处理能力。通过引入知识图谱（KG），该框架显著提升了模型的知识准确率。实验表明，即使仅使用5%的训练数据，KG-SFT也能使知识准确率提高14%，展现出高效的知识强化能力。这一成果为领域知识的深度应用提供了新思路。

知识图谱监督微调大型语言模型领域知识准确率提升

2025-04-08

个性化对齐：引领大型语言模型新篇章

首个实现个性化对齐的大型语言模型已正式发布，该模型能够精准识别用户的内在动机与偏好。蚂蚁集团联合中国人民大学，首次系统性探索了大规模个性化偏好对齐范式，为满足多样化的人类需求提供了全新路径。此外，他们还开源了一个包含百万用户画像的数据集，助力全球研究者进一步开发和优化相关技术。

个性化对齐大型语言模型用户偏好蚂蚁集团开源数据集

2025-04-08

知识图谱驱动的监督微调：提升大型语言模型领域知识处理能力

中国科学技术大学MIRA实验室的王杰教授团队开发了知识图谱驱动的监督微调（KG-SFT）框架，该框架通过整合知识图谱（KG），显著提升了大型语言模型（LLMs）在特定领域内的知识处理能力。实验表明，在仅使用5%训练数据的情况下，该方法可将知识准确率提高14%，为领域知识的应用提供了新思路。

知识图谱监督微调大型语言模型领域知识准确率提升

2025-04-08

揭秘大型语言模型中的幻觉现象：对数线性定律与CoDA策略的应用

一项由UIUC等大学的华人研究团队主导的研究，揭示了大型语言模型（LLM）中的幻觉现象，并提出了一种名为CoDA的策略以预测和减少此类幻觉。研究发现，幻觉现象遵循对数线性定律，这一定律描述了LLM中知识的相互影响机制。通过实验验证，CoDA策略显著提升了模型的可预测性和可控性，为未来语言模型的发展提供了新方向。

大型语言模型幻觉现象对数线性定律CoDA策略知识影响

2025-04-08

AI热点

2025-06-07

多模态推理新基准：Gemini 2.5 Pro的测试挑战

科技热点

多模态推理新基准：Gemini 2.5 Pro的测试挑战