技术博客

摩尔线程重磅发布:引领AI训练新篇章的MT-MegatronLM和MT-TransformerEngine

摩尔线程公司近期发布了两款重要的人工智能框架——MT-MegatronLM 和 MT-TransformerEngine。通过集成FP8混合精度训练技术和高性能算子库,这两款框架实现了在国产全功能GPU上的高效混合并行训练与推理,大幅提升了模型训练的效率和稳定性,为人工智能领域的发展注入了新的动力。

摩尔线程人工智能框架FP8混合精度高性能算子库模型训练
2025-03-19
四川大学研究团队ICLR 2025力作:TTA方法破解跨模态检索查询偏移难题

四川大学研究团队在ICLR 2025会议上提出了一种名为Test-time Adaptation(TTA)的新方法,该方法专注于解决跨模态检索中的查询偏移问题。通过TTA的应用,研究者成功减轻了查询偏移对检索性能的负面影响,为推理时计算在跨模态领域的进一步发展提供了新思路。

跨模态检索查询偏移TTA方法推理时计算ICLR会议
2025-03-19
英伟达Rubin芯片:引领AI领域新篇章

英伟达即将推出的下一代芯片Rubin备受瞩目,预计到2026年将带来高达2370亿美元的收入。随着Blackwell芯片的大规模发货,市场对Rubin的性能充满期待。英伟达GTC开发者大会从9000人扩展至25000人,被誉为“AI Woodstock”,彰显其在AI领域的领导地位。未来,黄仁勋将在GTC大会上发布哪些新产品?Rubin能否再次引领性能革命,成为行业焦点,值得期待。

英伟达芯片Rubin性能AI WoodstockGTC大会黄仁勋发布
2025-03-19
《揭秘代码评测集质量之谜:香港科技大学发布How2Bench指南》

香港科技大学联合多所高校对过去十年内的274个代码评测集进行全面调研,发现其数量虽显著增长,但存在数据重复、测试用例错误及隐私信息未妥善处理等问题。为此,研究团队发布了《代码评测集发展指南55项》(How2Bench),涵盖设计、构建、评测、分析和发布五大阶段,旨在规范开发流程,提升代码评测集的质量与可靠性。

代码评测集数据质量隐私信息开发流程How2Bench
2025-03-19
向量嵌入:文本数据的数学化转换

在自然语言处理领域,向量嵌入(Embedding)是将文本数据转换为数学运算可用形式的关键技术。通过向量嵌入,原始文字被编码为高维空间中的向量,使机器学习算法能够对文本进行分析与计算。这一过程不仅解决了计算机无法直接处理文本的问题,还为深度学习模型提供了高效的数据表示方式。

向量嵌入自然语言文本数据数学运算机器学习
2025-03-19
深入剖析LLM核心损失函数:KL散度与交叉熵损失的比较分析

本文深入解析了机器学习中两种核心损失函数——KL散度与交叉熵损失的定义、性质及其应用场景。通过对比分析,揭示了两者在理论基础与实际应用中的联系与差异,为模型优化提供了重要参考。

KL散度交叉熵损失机器学习核心损失函数应用比较
2025-03-19
深度剖析:无BEV架构下的端到端自动驾驶技术

通过对话CCF-CV学术新锐奖得主贾萧松博士,本文深入解析了一种以Decoder为核心的无BEV端到端自动驾驶架构。该技术旨在利用神经网络直接在像素空间中识别对决策有影响的关键像素点,并通过分析轨迹优劣实现高效自动驾驶。相比传统方法,无BEV架构减少了中间特征转换的复杂性,提升了实时性和准确性。

端到端自动驾驶无BEV架构Decoder技术像素空间分析贾萧松博士
2025-03-19
Roblox Cube:引领AI驱动的3D建模新趋势

Roblox 近日发布了一款名为 'Cube' 的 AI 驱动 3D 建模工具,用户可通过简单提示词快速生成 3D 模型。此外,Roblox 计划本周晚些时候开源 'Cube' 工具的代码,鼓励非平台用户参与创新开发,推动 3D 内容创作领域的技术进步。

Roblox CubeAI建模工具3D模型生成开源代码创新开发
2025-03-19
深度剖析:Claude模型上下文协议7000字详尽解读

本文对Claude模型的上下文协议(MCP)进行了深入解析,详细探讨了其在AI集成技术中的关键作用。作为一项突破性技术,MCP显著提升了AI模型与外部环境的交互能力,为未来智能化应用提供了广阔的可能性。文章通过7000字的专业分析,揭示了MCP的技术原理及其潜在影响。

Claude模型上下文协议MCP解析AI集成技术外部环境
2025-03-19
大型语言模型的Decoder-only结构:拓宽应用范围的新视角

当前,许多大型语言模型采用了Decoder-only结构,这种设计使得模型能够通过Prompt Engineering技术灵活适配多种下游任务。借助这一特性,模型的应用范围得以显著拓宽,为各行各业提供了更多可能性。

大型语言模型Decoder结构Prompt工程下游任务应用范围
2025-03-19
AI项目失败的根源:战略疏忽与数据管理

在探讨AI项目失败的原因时,战略疏忽与错误成为关键因素。数据显示,全球有42%的企业因数据管理混乱而未能有效利用AI技术,同时95%的IT高管承认,缺乏适当培训是导致项目失败的重要原因。这表明企业在推进AI技术时,需重视战略规划、数据管理和员工培训,以提高成功率。

AI项目失败战略疏忽数据管理企业培训技术利用
2025-03-19
英特尔变革之路:陈立武如何引领英特尔重回巅峰

65岁的陈立武接任英特尔CEO后,正推动公司进行全面变革。他计划升级制造流程与人工智能业务,并裁减中层管理人员以优化结构。作为芯片行业的巨头,英特尔能否在陈立武的领导下重振辉煌、重回行业巅峰,成为业界关注的焦点。

英特尔变革陈立武领导芯片行业人工智能管理裁减
2025-03-19
OpenAI的蜕变之路:从离职创业到新孵化模式

OpenAI的发展历程中,o1/o3后训练负责人的离职创业成为焦点事件。奥特曼将OpenAI逐步转型为类似YC的孵化机构,这一战略调整可能重新定义AI行业的生态格局。Fedus的离职不仅标志着核心团队的变动,也可能预示着“OpenAI系”未来的新发展方向,即从单一技术输出向多元化创业支持转变。这种变化或将推动更多AI人才投身创业浪潮,进一步拓展AI技术的应用边界。

OpenAI发展离职创业奥特曼孵化Fedus离职AI新方向
2025-03-19
腾讯AI重大突破:3D技术开源模型引领行业新篇章

腾讯公司在人工智能领域取得了重要突破,特别是在3D技术方面。公司宣布开源两款AI模型,这些模型能够在消费级显卡上高效运行。根据腾讯的路线图,明日还将有三款新模型开源,其中一款模型的生成速度超越了今日发布的Hunyuan 3D-2mini,展现了腾讯在AI领域的持续创新能力。

腾讯AI进展3D技术开源模型消费级显卡Hunyuan 3D
2025-03-19
低成本构建多模态版R1人工智能模型:数学推理能力突破

基于DeepSeek核心理念开发的多模态版R1人工智能模型,仅需240元即可低成本构建,其数学推理能力在两阶段训练方法的加持下显著提升,达到工业级应用标准。尽管多模态大模型在视觉理解任务中表现出色,但参数量较小的模型在深度数学推理任务中往往表现不佳,而该模型成功突破了这一限制。

多模态模型数学推理DeepSeek理念两阶段训练低成本构建
2025-03-19
探索DeepSeek高效对话技巧:解锁AI的高效能助手功能

在人工智能快速发展的时代,DeepSeek作为一款领先的AI工具,正帮助众多用户提升工作效率与问题解决能力。掌握九个高效的DeepSeek对话技巧,能够充分释放其潜能,使用户轻松解锁高效能助手功能,实现更智能化的工作体验。

DeepSeek技巧人工智能高效能助手工作效率对话技巧
2025-03-19