技术博客

大型语言模型长文本生成性能探究:LIFEBENCH框架的引入与应用

大型语言模型(LLMs)在长文本生成方面存在显著性能问题,研究表明26个模型在处理长文本时表现不佳,其输出长度常被过度宣传。为解决此问题,论文提出LIFEBENCH框架,用于评估LLMs遵循长度指令的能力,涵盖不同任务、语言及长度限制下的表现,为优化模型性能提供新方向。

大型语言模型长文本生成性能问题LIFEBENCH框架长度指令
2025-05-30
“心灵之眼”启示:生成图像技术在跨模态推理中的应用

近日,由上海交通大学、上海创智学院、复旦大学与Generative AI Research Lab(GAIR)联合研发的“Thinking with Generated Images”技术取得突破性进展。该技术使大型人工智能模型能够生成视觉化中间步骤,模拟人类利用内心图像进行跨模态推理的过程,为人工智能领域注入新活力。

生成图像技术跨模态推理人工智能模型内心图像模拟上海交大研究
2025-05-30
新型低延迟推理引擎Megakernel:斯坦福Hazy实验室的突破性进展

斯坦福大学Hazy实验室开发的新型低延迟推理引擎“Megakernel”,通过将Llama-1B模型的前向传播过程集成到单一GPU内核中,显著提升了推理速度。在B200硬件上,单次推理时间仅为680微秒,较vLLM模型快3.5倍,成功实现低于1毫秒的推理延迟,为用户提供几乎无感知的高效体验。

Megakernel引擎低延迟推理Llama-1B模型GPU内核集成斯坦福Hazy实验室
2025-05-30
人工智能革新:实时视频生成与交互技术的突破

一项由两位自动驾驶领域专家开发的创新技术,通过人工智能实现了视频的实时生成与交互。该技术基于一个强大的世界模型,能够在40毫秒内生成一帧视频,远快于人类眨眼所需的时间(100至400毫秒)。更值得一提的是,这项技术无需依赖游戏引擎,并对所有人免费开放,为用户提供了前所未有的创作自由。

人工智能实时视频交互技术世界模型免费开放
2025-05-30
人工智能Zochi的学术突破:大模型安全的革新之道

由人工智能系统Zochi独立完成的研究成果在顶级学术会议ACL上发表,标志着AI科学家的新突破。Zochi开发的Tempest框架通过多轮对话与树搜索技术,在大模型安全领域实现了97%的成功率,其策略被比喻为“温水煮青蛙”,揭示了一种渐进且隐蔽的影响方式。这一成就不仅推动了AI技术的发展,还引发了对大模型安全性的深刻思考。

人工智能Zochi系统大模型安全温水煮青蛙学术突破
2025-05-30
深入解析视频推理领域的“福尔摩斯测试”

在视频推理领域,一项名为“福尔摩斯测试”的挑战正吸引广泛关注。该测试要求多模态大型模型完成高难度任务,如识别视频中的“杀人凶手”或解析“作案意图”。这些任务旨在探索模型在复杂视频推理能力上的极限。目前,相关研究的论文与代码已开源,为全球研究者提供了进一步分析和优化的机会。

视频推理多模态模型福尔摩斯测试作案意图开源代码
2025-05-30
波士顿动力引领工业革命:机器人3D空间感知与实时物体追踪技术解析

波士顿动力公司开发的工业机器人凭借先进的3D空间感知与实时物体追踪技术,能够独立完成复杂任务。即使在受到人类干扰时,这些机器人仍可保持稳定运行,展现出卓越的操作性能,为工业领域带来了革命性的解决方案。

波士顿动力工业机器人3D空间感知实时物体追踪操作性能
2025-05-30
英伟达2026财年第一季度营收净利润双超预期:AI推理技术引领盈利新高峰

英伟达公司在2026财年第一季度展现出卓越的财务表现,营收达到441亿美元,净利润高达188亿美元,远超市场预期。尽管100亿H20产品未售出,但凭借AI推理技术的全面爆发,公司成功实现了盈利增长。这一成绩彰显了英伟达在人工智能领域的领先地位及其强大的技术创新能力。

英伟达财务AI推理技术2026财年营收441亿净利润188亿
2025-05-30
华为盘古团队创新力作:Pangu Ultra MoE架构解析

华为盘古团队开发了Pangu Ultra MoE架构,该架构无需依赖GPU即可训练接近万亿参数规模的大型模型。通过提出Depth-Scaled Sandwich-Norm(DSSN)稳定架构与TinyInit小初始化方法,成功在昇腾NPU上实现了超过10T token数据的长期稳定训练。这一突破为大规模模型训练提供了新思路,显著降低了对传统硬件的依赖。

盘古团队Pangu Ultra昇腾NPUDSSN架构TinyInit方法
2025-05-30
EfficientLLM实证研究:GH200芯片上大型语言模型省钱测评全解析

本文深入探讨了大型语言模型(LLM)的省钱测评,聚焦于首个在48块GH200芯片上实现的百亿级参数量模型的实证研究。EfficientLLM项目通过提出三轴分类法与六大评估指标,全面覆盖全架构、多模态及微调技术,为研究人员提供了效率与性能平衡的重要参考依据。

大型语言模型省钱测评GH200芯片EfficientLLM三轴分类法
2025-05-30
标题1:Manual2Skill框架:开启机器人复杂任务学习新篇章

本文介绍了一种名为Manual2Skill的创新机器人学习框架,该框架由新加坡国立大学邵林团队开发。通过运用视觉语言模型(VLMs),Manual2Skill能够解析人工设计的视觉说明书,帮助机器人自主完成复杂的家具装配任务。其核心技术包括层级化图式指令解析和鲁棒位姿估计,有效弥合了抽象说明书与实际物理操作之间的差距。

机器人学习复杂任务视觉语言模型家具装配Manual2Skill
2025-05-30
图像到有声视频:人大高瓴AI学院与值得买科技的创新性突破

在CVPR 2025会议上,中国人民大学高瓴人工智能学院与值得买科技的AI团队展示了一项突破性技术。该技术通过一个创新框架,实现了将静态图像直接转换为同步音视频内容的功能。这一进展标志着图像到有声视频生成领域的重大飞跃,为未来的内容创作和多媒体应用提供了全新可能。

静态图像转换音视频生成CVPR会议人工智能团队技术创新框架
2025-05-30
CipherBank评测系统:挑战SOTA大模型的加密数据处理能力

上海AI Lab联合多家机构推出了CipherBank评测系统,该系统基于大量真实隐私场景数据与多种密码算法,对SOTA大模型进行测试。结果显示,即便如Qwen3和o1这样的先进模型,在处理加密数据时表现欠佳,其中Qwen3的准确率不足10%,o1亦未能通过测试。这一研究揭示了当前大模型在加密数据处理领域的局限性。

CipherBank系统隐私场景数据SOTA大模型加密数据处理Qwen3准确率
2025-05-30
AI自我优化之路:DeepSeek技术揭开复杂推理新篇章

浙江大学校友成功复现了DeepSeek技术,这一突破性进展使AI能够通过强化学习优化自身的信心水平,从而在无需外部奖励信号或真实答案的情况下掌握复杂推理任务。这项技术的核心在于AI通过自我信心优化,显著提升了其在未知环境中的推理能力,为人工智能领域开辟了新方向。

AI自信优化复杂推理DeepSeek技术强化学习浙江大学
2025-05-30
“数据要素×”大赛:2025年北京地区分赛的创新引领

2025年,北京地区正式拉开“数据要素×”大赛分赛的帷幕。此次创新竞赛以数据要素为核心,旨在激发社会各界对数据价值的挖掘与应用能力。比赛将汇聚众多优秀团队,通过多维度的竞技形式,推动数据技术与实际场景深度融合,为数字化转型注入新动力。

数据要素北京大赛2025年分赛启动创新竞赛
2025-05-30
科技巅峰的攀登者:致敬5·30全国科技工作者日

在5月30日全国科技工作者日之际,本文聚焦科技工作者在攀登科学高峰中的艰辛与成就。他们以不懈的探索精神和创新能力,攻克无数技术难关,为国家发展注入强大动力。这种攀登精神不仅推动了科技进步,也激励着全社会勇往直前。致敬所有默默奉献的科技工作者!

科技工作者科学高峰攀登精神530特别报道科技创新
2025-05-30