技术博客

大型语言模型的推理革新：连续思维链范式探究

田渊栋团队的最新研究成果引起了广泛关注。他们在论文中提出了一种名为“连续思维链”（Coconut）的新范式，旨在探索大型语言模型（LLM）在潜在空间中的推理能力。与传统的自然语言推理方法不同，该研究不依赖自然语言，而是通过连续思维链来挖掘LLM在推理方面的潜力。这一创新方法为未来的人工智能研究开辟了新的方向。

连续思维大模型推理能力自然语言潜在空间

2024-12-12

重塑智能研发新范式：大模型技术的应用与影响

本期《架构师》杂志（2024年第三季）聚焦于大模型技术如何重塑智能研发的新范式，深入分析了2024年软件工程行业的变革及其背后的原因和未来趋势，并通过与Anthony Alford的访谈，探讨了AI架构的入门知识。这些内容不仅为专业人士提供了宝贵的见解，也为广大读者带来了对前沿技术的全面理解。

大模型智能研发软件工程变革趋势AI架构

2024-12-11

腾讯创新力作：RAG与Agent技术双剑合璧，开启智能化新时代

腾讯公司近期利用RAG（Retrieval-Augmented Generation）和Agent技术，成功开发了一款混合型的大型人工智能模型。该模型在微信生态系统、社交内容管理、视频新闻编辑、办公文档处理以及游戏开发等多个业务领域得到了广泛应用。通过这一大模型的应用，腾讯显著提升了各业务场景的智能化水平和工作效率。

RAG技术Agent技术大模型智能化工作效率

2024-12-11

大模型密度定律：开启人工智能新纪元

清华大学NLP实验室的刘知远教授团队提出了一项新的理论——大模型的密度定律（densing law）。这一理论类似于芯片行业的摩尔定律，指出大模型的能力密度随着时间的推移呈指数增长。自2023年以来，大模型的能力密度大约每3.3个月，即约100天，就会翻倍。这一发现为大模型的发展提供了重要的理论支持，预示着未来人工智能技术的快速进步。

大模型密度定律摩尔定律能力密度指数增长

2024-12-10

深入浅出：大型机器学习模型的训练奥秘

本文以通俗易懂的语言解释了大型机器学习模型的工作原理。文章概述了大模型的基础训练流程，并简要阐述了大模型的规模。通过这些内容，读者可以了解到为什么训练这些庞大的数据模型成本高昂。随着技术的不断进步，预计大模型将对我们的日常生活产生深远的影响。

大模型训练流程成本高技术进步影响深

2024-12-09

面向场景的大模型应用：具体问题具体分析的策略与实践

在处理面向场景的大模型应用框架选择时，通常采用“具体问题具体分析”的方法来应对不确定性。这种方法类似于工匠的思维，即对问题进行分类，并探索是否存在通用的解决方案。虽然这些解决方案可能不是最优化的，但它们至少是可行的。对于大模型应用而言，这种方法同样适用，能够帮助开发者在复杂多变的环境中找到合适的解决方案。

大模型场景化应用框架具体分析通用解

2024-12-09

深度探索：机器学习中的注意力机制与大模型开发

在机器学习领域，特别是在从零开始开发大型模型时，注意力机制的引入为模型性能带来了显著提升。传统的卷积神经网络和全连接神经网络通常只关注局部信息，而忽略了全局上下文。注意力机制通过允许模型同时考虑全局和局部特征，能够更有效地捕捉到关键信息，从而提高模型的准确性和鲁棒性。

机器学习注意力大模型卷积网全连接

2024-12-09

大型语言模型在AI进展中的角色：探索与边界

最新一期的《Nature》杂志深入分析了大型语言模型（LLM）在人工智能（AI）发展中的进展与限制。文章引用了Bengio的观点，指出当前的AI技术尚未达到通用人工智能（AGI）的水平。多位领域专家的意见表明，尽管AI在智能方面取得了显著进步，但仍面临诸多终极边界和技术限制。文章探讨了人类距离实现AGI还有多远，以及在智能化道路上LLM所取得的突破和局限性。

大模型AI进展AGI智能边界技术限制

2024-12-09

大模型技术：探索挑战与机遇的双重境界

在本期《极客有约》节目中，我们有幸邀请到了OpenAI的前研究员及中关村科金的总裁喻友平。节目将深入探讨大模型在实际应用中所面临的挑战和机遇，以及如何有效推动这些技术为人类社会带来积极影响。喻友平将分享他在大模型领域的丰富经验，讨论技术落地过程中的关键问题，包括数据安全、算法优化和伦理考量等。

大模型挑战机遇技术影响

2024-12-06

大型语言模型的进化：Hymba架构的突破与挑战

近年来，大型语言模型（LLM）在多个领域取得了显著的进展。然而，现有的Transformer架构面临计算复杂度高和内存消耗大的挑战。与此同时，状态空间模型（SSM），例如Mamba，虽然具有常数时间复杂度和优化的硬件性能，但在处理记忆回溯任务时表现不佳。为了解决这些问题，提出了一种创新的语言模型方案Hymba，该方案结合了注意力头和SSM头，旨在降低计算复杂度和内存消耗，同时提升记忆回溯任务的性能。

大模型TransformerSSMHymba计算复杂度

2024-12-05

北理工'流星雨计划'：揭开大型AI模型自进化能力的神秘面纱

北京理工大学计算机科学与技术学院近日启动了一项名为“流星雨计划”的研究项目。该项目旨在探索和开发大型人工智能模型的自我进化能力，以推动这些模型的技术进步和应用发展。通过这一计划，研究人员希望实现AI模型的自主学习和优化，从而在多个领域带来革命性的变化。

流星雨自进化大模型北理工AI研究

2024-12-05

Apollo开放平台10.0：引领自动驾驶技术新篇章

Apollo开放平台10.0版本现已全球发布，该版本在软件核心层、应用软件层和工具服务层进行了全面的升级。特别值得注意的是，Apollo 10.0版本中包含了对自动驾驶大模型重构算法的改进，这将有助于提升自动驾驶技术的效率和性能。

Apollo开放平台自动驾驶大模型重构算法

2024-12-04

大模型技术在Linux操作系统自动化维护中的应用与优化

在大模型技术的辅助下，Linux操作系统的开发和自动化维护工作得到了显著的优化。通过将先进的大模型技术应用于自动化基础设施和工具平台，Linux操作系统的软件包开发、自主维护的效率和质量均得到了显著提升。特别是对于OpenCloudOS这一操作系统而言，其自主维护能力得到了进一步的加强，使得其在自主维护的道路上更加稳健。

大模型Linux自动化OpenCloudOS维护

2024-12-03

大模型发展背后的关键因素：量变引起质变的奥秘

近年来，大模型的发展迅速，其核心机制在于“量变引起质变”。通过不断增加数据量和计算资源，大模型的性能得到了显著提升。然而，关于Scaling Law是否已经达到极限的讨论日益激烈。本文探讨了大模型发展的关键因素，分析了如何衡量其效益和价值，旨在为未来的研究提供参考。

大模型量变质变Scaling效益价值

2024-12-03

Kitex/Hertz：驱动大模型发展的三年跃迁

本文回顾了Kitex和Hertz在过去三年中的关键特性发展，特别关注近一年来的重要更新。基于CloudWeGo三周年的分享，文章详细介绍了Kitex和Hertz如何支持大型模型，并概述了其主要功能和进步。这些更新不仅提升了系统的性能和稳定性，还为开发者提供了更强大的工具，以应对日益复杂的应用需求。

KitexHertz大模型特性更新

2024-12-03

大模型智能算法与实际开发应用融合之道：关键技术解读与行业应用案例分析

本文探讨了大模型智能算法与实际开发应用的结合，重点分析了支持大模型服务的智能计算基础设施，以及在基础大模型研发中采用的前沿技术和实践方法。通过这些技术的应用，大模型在多个行业中展现出巨大的潜力和价值。