技术博客

手绘灵感成真:SketchVideo技术在CVPR 2025上的突破

在CVPR 2025会议上,一项名为“SketchVideo”的创新技术成为焦点。该技术借助生成式人工智能的最新成果,实现了从手绘草图到动态视频的转换,标志着视频生成技术迈入线稿时代。这一突破不仅拓展了生成式AI的应用范围,还为创意设计和内容生产提供了全新可能。

SketchVideo技术生成式AI手绘草图动态视频线稿时代
2025-05-18
北大校友Lilian Weng的最新力作:大型模型运作机制深度剖析

北京大学校友Lilian Weng在其最新博客文章《Why We Think》中,深入剖析了大型模型的运作机制。作为人工智能领域的重要研究者,她通过详实的分析为读者揭示了这些复杂系统背后的逻辑,为学习和理解人工智能提供了宝贵的资源。她的研究不仅推动了技术进步,也为大众了解这一前沿领域打开了窗口。

人工智能大型模型北大校友Lilian WengWhy We Think
2025-05-18
华为Selftok技术革新:引领自回归核心与扩散模型的新篇章

华为近期在Selftok技术上取得重大突破,通过将自回归核心与扩散模型整合,实现了像素级自主推理。这项技术借鉴了语言模型中的“next-token prediction”方法,成功将其应用于图像处理领域。自回归技术以其强大的因果建模能力,在从GPT-3到GPT-4o的语言模型发展中发挥了关键作用,而Selftok技术则进一步拓展了这一方法的应用边界,为未来多模态智能提供了新的可能性。

Selftok技术自回归核心扩散模型像素级推理next-token预测
2025-05-18
ICML 2025会议:大型模型推理下的超长文本生成加速策略

在ICML 2025会议上,专家们聚焦于大型模型推理中如何高效生成超长文本的问题。研究显示,通过自动补全技术,可实现100K生成量的3倍加速,显著提升模型优化与部署效率。这一突破为复杂场景下的文本生成提供了新思路。

大型模型推理超长文本生成自动补全技术ICML 2025会议模型优化部署
2025-05-18
傅里叶变换在图像对抗性扰动分析中的应用

中国科学院大学与计算技术研究所的研究团队提出了一种基于傅里叶变换的图像对抗性扰动分析方法。该研究由裴高政博士生主导,马坷副教授和黄庆明教授共同指导,并将在ICML 2025 Spotlight会议上发表。通过傅里叶变换,研究揭示了图像扰动在频域中的特性,为提升模型鲁棒性提供了新思路。相关代码已公开,助力学术界进一步探索。

傅里叶变换图像扰动ICML会议中科院团队对抗性分析
2025-05-18
谷歌DolphinGemma:揭开海豚语言交流之谜

谷歌公司近期推出了一款名为DolphinGemma的人工智能工具,这是全球首个专注于探索和理解海豚交流语言的大型语言模型。通过先进的人工智能技术,DolphinGemma旨在破解海豚复杂的声波信号,为人类深入了解海洋生物的沟通方式提供了全新可能。这一创新工具不仅推动了跨物种交流的研究,还展示了人工智能在生物语言解码领域的巨大潜力。

海豚语言谷歌工具人工智能大型模型交流理解
2025-05-18
JuiceFS在中国科学院计算所大模型训练中的存储技术演进

中国科学院计算所为解决大模型训练中的数据处理瓶颈与存储互通问题,采用JuiceFS作为存储解决方案。该方案通过Redis实现高效的元数据管理,并自建MinIO集群作为底层对象存储系统,显著降低了元数据访问延迟,优化了不同计算资源间的存储交互,提升了模型训练效率。

大模型训练JuiceFS元数据管理MinIO集群存储互通
2025-05-18
Windows Community Toolkit 8.2版:原生AOT编译技术助力UWP应用性能飙升

Windows Community Toolkit的最新版本8.2现已发布,新增对原生AOT(Ahead-of-Time)编译技术的支持。此次更新不仅优化了依赖项,还为UWP(Universal Windows Platform)应用程序引入了对.NET 9的支持,显著提升了应用性能与启动速度。通过AOT编译技术,开发者能够构建更高效、响应更快的应用程序,满足用户对流畅体验的需求。

Windows工具包AOT编译技术UWP应用.NET 9支持性能优化
2025-05-18
2025年第十一届世界雷达博览会:合肥科技盛宴揭幕

2025年,第十一届世界雷达博览会在合肥盛大开幕,作为全球领先的科技展会之一,此次博览会吸引了众多行业专家与企业参与。现场图片展示了最新的雷达技术与应用成果,涵盖军事、气象、交通等多个领域,彰显了科技进步对社会发展的深远影响。

世界雷达博览会合肥开幕现场图片2025年科技展会
2025-05-18
谷歌云平台新推出的Rapid Storage:高延迟敏感型工作负载的利器

谷歌云平台近期推出了一项名为“Rapid Storage”的新型存储解决方案,专为高延迟敏感型工作负载设计。该方案能够实现毫秒级响应时间,显著提升数据处理效率,满足企业对快速数据访问的需求。通过优化存储架构,“Rapid Storage”为企业提供了更高效、更可靠的存储体验。

谷歌云平台Rapid Storage存储解决方案毫秒级响应高延迟敏感
2025-05-18
知识流动:重塑架构师在软件团队中的核心角色

在现代软件开发中,架构师的角色已从单纯的技术设计者转变为知识流动的推动者。通过规划知识流动,架构师能够有效促进软件团队的发展与进步。这一核心转变不仅重新定义了架构设计的意义,也为团队的长期发展规划提供了全新视角。

知识流动软件团队架构设计架构师角色发展规划
2025-05-18
人工智能领域的突破:DeepSeek项目的崛起

近日,中国本土人工智能项目DeepSeek(简称DS)因其模仿人类大脑注意力机制的技术突破引发全球关注。这一创新使AI能够更自然地处理信息,显著提升了数据筛选与专注能力。DeepSeek的崛起不仅在技术领域引起轰动,还对美国股市产生了深远影响,被视为AI行业发展的重要里程碑。

DeepSeek人工智能注意力机制技术突破美国股市
2025-05-17
开源新篇章:港中文与微软联手打造OpenThinkIMG框架

港中文与微软联合推出开源框架OpenThinkIMG,显著提升AI视觉推理能力。该框架通过教授AI使用视觉工具进行带图推理,在同类模型中表现卓越,为AI技术发展开辟新路径。

OpenThinkIMGAI视觉推理开源框架港中文微软带图推理
2025-05-17
人工智能的困境:黑箱问题仍无解

经过十年的深入研究,人工智能领域的“黑箱”问题仍未解决,巨额资金投入未能换来突破。近期,ChatGPT的“舔狗化”事件再次凸显AI机制的不透明性。在“机制可解释性”的研究路线上,谷歌选择放弃,而Anthropic坚持探索,这反映出AI研究核心价值共识的分裂。这一现状引发深思:人类是否还能真正理解AI?

人工智能黑箱问题机制可解释性ChatGPT事件谷歌放弃
2025-05-17
统一多模态模型:引领图像生成与理解的新突破

谢赛宁等人提出了一种创新的统一多模态模型,该模型在图像理解和生成任务中均取得了显著成果。相比传统变分自编码器(VAE),此模型性能更优,并达到图像生成领域的最新最先进水平(SOTA)。研究团队还全面开源了模型代码、权重及数据集,旨在推动学术界与工业界的进一步发展和应用,为相关领域带来重要突破。

多模态模型图像生成开源代码图像理解学术突破
2025-05-17
苹果FastVLM模型:iPhone视觉理解的革命性突破

苹果公司近期开源了名为FastVLM的视觉语言模型,该模型在速度上提升了85倍,能够直接在iPhone上运行。这一技术突破赋予了苹果设备极速的视觉理解能力,显著提高了处理视觉信息的效率,为用户带来更智能、便捷的体验。

FastVLM模型苹果开源视觉语言iPhone运行极速视觉
2025-05-17