技术博客

生成式人工智能在供应链管理中的颠覆性应用

在供应链管理领域，生成式人工智能（GenAI）和大型语言模型（LLM）正推动一场技术变革。企业对更高效、更具弹性的解决方案的需求日益增长，而这些先进技术能够优化流程、提升决策效率，并为企业提供实时洞察。通过智能化预测与自动化操作，GenAI代理正在重新定义供应链管理的未来。

生成式人工智能大型语言模型供应链管理弹性解决方案技术变革

2025-03-19

大型语言模型的Decoder-only结构：拓宽应用范围的新视角

当前，许多大型语言模型采用了Decoder-only结构，这种设计使得模型能够通过Prompt Engineering技术灵活适配多种下游任务。借助这一特性，模型的应用范围得以显著拓宽，为各行各业提供了更多可能性。

大型语言模型Decoder结构Prompt工程下游任务应用范围

2025-03-19

超参数调整的艺术：大型语言模型性能优化揭秘

近年来，大型语言模型（LLMs）在各类任务中表现出色，但其高效部署依赖于精确的超参数调整。通过广泛的实证研究与网格搜索，研究人员发现了一套适用于多种场景的最优超参数缩放法则，有效提升了模型性能。此外，实验数据已开源，助力开发者科学调整超参数，减少盲目猜测。

大型语言模型超参数调整网格搜索模型性能开源数据

2025-03-17

MedRAG模型的创新与应用前景

南洋理工大学研究团队在WWW 2025会议上提出MedRAG模型，该模型结合知识图谱与推理技术，提升大型语言模型（LLM）的诊断能力。测试表明，MedRAG在真实临床数据集上的准确率较现有模型提高11.32%，且具备良好泛化能力，可适配多种LLM基础模型，显著优化智能健康助手的诊断精度与个性化建议水平。

MedRAG模型智能健康助手诊断精度知识图谱大型语言模型

2025-03-17

谷歌Scaling Law：Transformer模型的性能革新之路

谷歌公司近期推出了一项名为Scaling Law的新技术，专注于优化Transformer模型的性能。该技术中的DiLoCo方法在多个数据中心训练大型语言模型（LLM）时表现出显著优势，提供更优性能、更快速度及更强能力。这一突破对价值3万亿美元的人工智能行业而言，标志着重要转折点。

Scaling LawDiLoCo方法谷歌技术Transformer模型大型语言模型

2025-03-17

重塑语言生成技术：深入解析LLaDA扩散模型

LLaDA模型作为一种创新的扩散模型，正逐步改变语言生成技术的格局。通过独特的算法机制，LLaDA不仅提升了生成内容的质量，还为大型语言模型（LLM）的发展提供了新方向。其工作原理基于复杂的数学运算与数据分布调整，能够更精准地捕捉语言特征，从而生成自然且连贯的文本。这一技术进步对未来的语言处理应用具有重要意义，可能重新定义人机交互的标准。

LLaDA模型语言生成扩散模型大型语言模型技术未来

2025-03-17

AI高效开发之道：词元解析与分词技巧探秘

本篇文章旨在为开发者提供AI高效开发的入门指导，重点解析词元（token）对大型语言模型（LLM）性能与成本的影响。通过深入探讨分词（tokenization）的重要性，文章揭示了这一过程如何成为实现AI高效开发的关键步骤。理解分词机制，能够帮助开发者优化资源利用，降低计算成本，提升模型效率。

AI高效开发词元分词大型语言模型性能成本

2025-03-17

AgentOps：解锁AI代理和LLM开发的无限潜能

AgentOps 是一款专为开发人员打造的集成平台，旨在优化 AI 代理和大型语言模型（LLM）应用的测试、调试与部署流程。通过支持 OpenAI Agents SDK、CrewAI 和 Langchain 等多种框架的无缝集成，该平台显著提升了开发效率和应用程序性能，为开发者提供了更便捷的工具支持。

AI代理开发大型语言模型调试部署开发效率集成平台

2025-03-17

MedRAG模型：引领智能健康助手诊断准确性的新篇章

南洋理工大学的研究团队在WWW 2025会议上提出了一种名为MedRAG的创新模型。该模型结合知识图谱推理技术与大型语言模型（LLM），显著提升智能健康助手的诊断准确性和个性化建议能力。实验表明，MedRAG在真实临床数据集上的表现优于现有模型，诊断准确率提高了11.32%，并展现出强大的泛化能力，可适配多种LLM基础模型。这一突破为智能医疗领域提供了新方向。

MedRAG模型智能健康助手知识图谱推理大型语言模型诊断准确性

2025-03-17

元强化微调：开启强化学习新篇章

近日，卡内基梅隆大学（CMU）提出了一种名为“元强化微调”的新方法，在强化学习（RL）领域取得了突破性进展，超越了DeepSeek-R1算法与GRPO算法的表现。与此同时，大型语言模型（LLM）在推理任务中的研究也取得显著成果，表明通过增加测试阶段的计算资源，如OpenAI的o1系列模型所展示的，可以有效提升模型的推理能力。

元强化微调强化学习大型语言模型推理任务计算资源

2025-03-17

大型语言模型的检索困境：搜索问题的效率挑战

大型语言模型（LLM）在内容生成方面表现出色，但在解决搜索问题时仍面临检索效率不足的挑战。这种局限性导致内容生成与检索之间出现脱节现象。为提升LLM在搜索架构中的效用，文章提出通过构建复杂的索引、优化排序机制以及引入上下文过滤方法等策略，以改善其检索性能，从而实现更高效的信息处理。

大型语言模型搜索问题检索效率内容生成上下文过滤

2025-03-17

陶哲轩的高度赞誉：o3-mini在图论领域的突破性证明

著名数学家陶哲轩亲自验证并高度评价了o3-mini在图论领域的专家级证明。该模型成功解决了图论中的一个难题，获得了陶哲轩的赞誉。经过实际测试，陶哲轩指出，大型语言模型（LLM）并非数学研究的万能钥匙，其有效性取决于问题的性质和AI的调优方式。这一成果不仅展示了AI在特定领域内的潜力，也为未来的研究提供了宝贵的参考。

陶哲轩评价o3-mini证明图论难题大型语言模型AI调优方式

2025-03-17

大型语言模型在高等数学测试中的卓越表现

近期，一项针对大型语言模型（LLM）的高等数学测试结果显示，这些模型在复杂数学问题上的表现令人瞩目。测试中，GPT-4o和Mistral AI等模型平均得分高达90.4分（满分100分）。它们在向量计算、几何分析及积分计算等领域几乎无误。研究指出，通过适当的提示优化（Re-Prompting），可显著提升模型解题准确率，为未来AI技术发展提供了新方向。

大型语言模型高等数学测试向量计算几何分析提示优化

2025-03-17

原子化思考：引领大型语言模型新篇章

AI大佬曼宁近期对MetaGPT团队提出的“原子化思考”概念表示高度认可。该理念通过将思考过程分解为更小的基本单元（Atom of Thoughts），旨在显著提升大型语言模型（LLM）的性能。这一方法不仅延续了近年来LLM通过训练扩展取得的进步，还可能使4o-mini模型在推理能力上超越现有模型，为人工智能领域带来新的突破。

原子化思考大型语言模型MetaGPT团队AI大佬曼宁4o-mini模型

2025-03-17

谷歌创新技术DiLoCo：重塑AI行业的大型语言模型优化之路

谷歌近期推出了一项名为Scaling Law的新技术，其中包含一种名为DiLoCo的技术方法。该技术在优化Transformer模型方面表现出色，对价值3万亿美元的AI行业具有深远影响。研究表明，DiLoCo技术能够更高效地训练大型语言模型（LLM），并支持多数据中心同时运行，为AI的发展提供了新方向。

Scaling LawDiLoCo技术谷歌研究AI行业大型语言模型

2025-03-17

InfiniRetri技术革新：大型语言模型的超长文本检索突破

InfiniRetri技术的问世，为大型语言模型在超长文本检索领域带来了突破性进展。该技术无需额外训练，即可将有效上下文token长度从32K扩展至1000K以上，显著提升了模型处理复杂任务的能力。实验表明，借助InfiniRetri，7B参数规模的模型性能可接近72B参数的模型，大幅降低了资源消耗与成本，为高效信息检索提供了全新解决方案。

InfiniRetri技术大型语言模型超长文本检索上下文token扩展模型性能提升

2025-03-17

AI热点

2025-06-06

绍兴市夏季高峰期的效率革新：机器狗技术的引入与应用

科技热点

绍兴市夏季高峰期的效率革新：机器狗技术的引入与应用