在ICLR 2025会议上,时间检验奖揭晓了两位深度学习领域的杰出贡献者。华人科学家Jimmy Ba因其十年前发表的Adam优化器研究荣获冠军,而Yoshua Bengio则凭借其在注意力机制领域的开创性工作获得亚军。这两篇论文对深度学习的发展产生了深远影响,彰显了基础研究的重要性。
近日,来自伊利诺伊大学厄巴纳-香槟分校(UIUC)的韩家炜与孙冀萌团队发布了一项名为DeepRetrieval的研究。该研究通过深度学习技术显著提升了信息搜索效率,仅需3B参数的大型语言模型(LLM),即可实现比现有最先进技术高出50个点的性能提升。此外,DeepRetrieval支持端到端学习搜索任务,并已开源,为社区提供了进一步发展的可能。
大型语言模型(LLMs)的快速发展显著推动了自然语言处理(NLP)领域中分块技术的进步。分块技术通过将文本分割为更小单元,有效提升了文本处理的效率与准确性。未来,随着深度学习和强化学习算法的整合,分块技术有望实现智能化与自适应化发展,能够依据文本语义、语法特征及用户习惯动态调整策略,从而达到最佳性能。
一项具有里程碑意义的开源事件标志着人工智能领域的新篇章:谷歌与计算机历史博物馆(CHM)联合发布了2012年的AlexNet代码。这一由Hinton团队开发的关键深度学习技术,曾引发全球AI热潮,并助力其获得诺贝尔奖。Ilya Sutskever、Alex Krizhevsky及李飞飞等科学家在其中贡献卓著。AlexNet代码的公开不仅验证了深度学习的可行性,更推动了一场改变世界的技术革命。
在即将到来的ICLR 2025会议上,清华大学研究团队将发表一篇关于深度学习求解偏微分方程(PDE)的突破性进展的口头报告。他们提出了一种名为GridMix的创新空间调控方法,该方法受谱方法启发,通过将空间调控参数表示为网格基函数的线性组合实现高效求解。
在深度学习领域,NVIDIA的CUDA与AMD的ROCm框架互操作性不足,导致GPU集群资源利用率低下。随着模型规模扩大及预算限制,传统2-3年更换GPU的方式难以为继。因此,探索在异构GPU集群中实现MLOps以优化分布式训练效率和资源利用成为关键课题。
本文为AI工程师介绍了Python中的八大核心人工智能库。这些库功能强大,涵盖机器学习、深度学习、自然语言处理及计算机视觉等领域。通过提供丰富的工具与框架,它们显著简化了AI应用的开发流程,助力工程师高效构建与部署智能系统。
在深度学习领域,优化多个损失函数时常常面临梯度冲突问题,导致训练陷入局部最优或失败。针对这一挑战,慕尼黑工业大学与北京大学联合提出ConFIG方法,旨在消除梯度冲突,实现高效稳定的多任务学习和物理信息神经网络训练。该方法为解决复杂场景下的优化难题提供了新思路。
本文探讨了深度学习中多目标优化的平衡策略,由香港科技大学与香港城市大学等机构的研究团队联合发布。研究通过整合多目标深度学习领域的资源,为读者提供了一份全面的研究概览,旨在帮助学者和从业者更好地理解该领域的核心问题及解决方案。
在2024年的大模型时代背景下,阿里妈妈搜索广告团队深入探讨了搜索推广模型的进化潜力。通过过去两年的努力,团队解决了核心问题并实施多项优化策略,展现了强大的迭代活力。这些成果不仅延续了深度学习时代的创新精神,还为未来的广告技术发展奠定了坚实基础。
最新的技术进展中,开源微调工具Unsloth实现了革命性的优化。该工具改进了DeepSeek-R1同款的GRPO训练算法,在古董级GPU上也能高效运行。优化后的算法显存使用仅为原来的十分之一,同时处理的上下文长度增加了10倍。这一成果不仅显著提升了古董GPU的性能,还为深度学习领域带来了新的可能性。
在ICLR 2025会议前夕,慕尼黑工业大学与北京大学联合研究团队提出了一种名为ConFIG的新方法。该方法专注于解决深度学习训练中不同损失项之间的冲突问题,从而提升模型训练效率。通过优化损失项的权衡策略,ConFIG为实现更高效的深度学习模型训练提供了新思路。
在B站视频模型的工程实践中,深度学习优化技术起到了关键作用。Deepspeed的zero-3技术通过将训练状态(如权重、梯度和优化器状态)分散存储在不同显卡上,显著提升了分布式训练框架中的显存利用率。这一技术不仅提高了训练效率,还使得更大规模的模型训练成为可能,为内容创作提供了强有力的技术支持。
本文总结了在资源受限环境中使用PyTorch进行深度学习模型训练时的十种内存优化策略。这些策略旨在提高GPU内存利用率,特别是在训练大型语言模型和视觉Transformer等复杂架构时尤为重要。通过合理配置和优化,用户可以在有限的硬件条件下实现更高效的模型训练。
近日,哥伦比亚大学的研究团队开发出一种新型人工智能系统,使机器人能够通过普通摄像头和深度神经网络技术实现自我建模、运动规划及自我修复。这一创新突破了传统机器人依赖工程师调整的限制,赋予机器人自主学习与适应环境变化的能力,为具身智能的发展开辟了新路径。
在开源周的第五天,DeepSeek项目正式宣布完成了3FS的开源工作。3FS是一个专为现代SSD和RDMA网络带宽设计的高性能并行文件系统,能够实现高达6.6 TiB/s的聚合吞吐量,显著提升了数据访问性能。这一成果为深度学习等数据密集型应用提供了强大的数据支持,标志着在高性能计算领域的重要进展。