智象未来联合创始人姚霆博士将出席AICon北京站,围绕多模态大模型在内容创作领域的革新性应用展开深度探讨。他将分享智象未来如何通过技术突破,使AI更深入地理解创作者意图,实现精准化、可控化的内容生成,推动内容创作从效率到质量的全面提升。此次演讲聚焦于多模态大模型如何融合文本、图像、音频等多元信息,赋能创作者在复杂场景下的表达需求,展现人工智能与创意产业深度融合的前沿实践。
快手团队在NeurIPS 2025会议上展示了其最新研究成果TagCF框架。该框架由快手消费策略算法团队联合快手基础大模型与应用部及武汉大学共同提出,旨在提升推荐系统的可解释性与精准度。TagCF不仅能够识别用户偏好(“知其然”),更能深入解析偏好的成因(“知其所以然”),从而实现对用户兴趣的深层理解。这一创新为推荐系统在内容分发、用户建模等场景中的应用提供了新的技术路径,标志着快手在智能推荐领域的持续领先。
由北京大学、字节跳动与卡耐基梅隆大学联合研发的首个3D生成解构模型PartCrafter,近日在GitHub上发布并迅速引发关注,星标数已突破2000个,跻身GitHub热榜。该模型开创性地实现了对3D内容的智能解构与生成,为三维建模、虚拟现实和内容创作等领域提供了高效、精准的技术支持。研究团队融合深度学习与几何分析技术,显著提升了复杂3D结构的分解与重建能力。PartCrafter的开源发布不仅推动了3D生成技术的普及,也展现了中国高校与科技企业在前沿AI领域的协同创新能力。
在极短的时间内,作者成功将包含约7500个文件的Terminal代码仓库整理为结构清晰的Wiki知识库,整体过程高效且系统化。该仓库涵盖C++、C#、JSON、XML及Markdown等多种编程语言和技术格式,总文件量接近10000个。通过自动化脚本与标准化分类策略,实现了代码文件的快速解析、归类与文档化转换,极大提升了信息检索效率与知识复用价值。此次实践展示了在复杂文件管理场景下,高效转换与知识体系构建的可能性,为开发者和内容管理者提供了可借鉴的解决方案。
近日,月之暗面与清华大学联合推出名为Seer的新型加速引擎,旨在显著提升大型语言模型(LLM)的训练效率。该引擎在不修改核心强化学习算法的前提下,实现了训练速度提升97%,同时将长尾延迟降低93%,有效解决了大规模模型训练中的性能瓶颈问题。Seer引擎的推出标志着产学研深度融合在人工智能基础设施领域的重大突破,为未来高效、低成本的语言模型训练提供了可靠技术路径。
南京理工大学、清华大学与南京大学联合研发了一款名为TCDiff++的端到端舞蹈生成模型,该技术在多人舞蹈生成领域实现重大突破。TCDiff++支持跨模态编舞,能够根据音乐或动作指令一键生成协调流畅、高质量且长时间的群体舞蹈序列,显著提升了群舞编排的自动化水平。该模型为虚拟演唱会、数字人集体演出等应用场景提供了完整的AIGC解决方案,推动了人工智能在艺术创作领域的深度融合与应用。
谷歌预测,在未来五年内,图像将能够像语言一样被当作序列进行学习,推动人工智能在视觉理解领域的进一步突破。当前,语言模型已成功利用序列学习处理文本信息,而图像序列的研究正逐步借鉴这一范式。通过将图像分解为有序的像素或特征块序列,模型可运用类似Transformer的架构进行训练,从而实现对图像内容的生成与推理。这一趋势不仅模糊了语言与视觉的边界,也为多模态学习提供了新的技术路径。随着计算能力的提升和数据规模的扩大,图像作为序列的学习方法有望在五年内取得实质性进展,成为继自然语言处理之后的下一个AI前沿领域。
腾讯混元大模型团队近日宣布,其最新研发的超轻量视频生成模型HunyuanVideo 1.5正式发布,核心部分已全面开源。该模型在视频生成效率与资源占用之间实现了显著突破,主要得益于创新性地引入稀疏注意力优化技术。这一技术有效降低了计算冗余,提升了生成速度与模型响应能力,使HunyuanVideo 1.5在保持高质量视频输出的同时,具备更强的部署灵活性和可扩展性。作为混元模型系列的重要进展,此次发布的版本为轻量化AI视频创作提供了新的技术路径,进一步推动了生成式AI在移动端与边缘设备的应用落地。
近日,由谢赛宁与Jaakkola团队联合开展的“AI 传心术”研究引发技术界广泛关注。该研究提出一种名为无数据Flow Map蒸馏的新型机器通信方法,首次实现无需语言交互的模型间高效沟通。通过直接传递前向计算中的Cache数据,该技术构建了Cache-to-Cache的通信新范式,显著提升信息传输效率并降低冗余开销。此项工作由清华大学、无问芯穹及香港中文大学等机构共同推进,突破传统依赖文本或符号的模型交互方式,展现出“去语言化”机器交流的巨大潜力,为未来AI系统协同提供了全新思路。
阿里巴巴集团近日推出名为ROCK的开源项目,旨在为人工智能智能体提供可大规模复制的实战演练环境。该项目有效解决了在真实场景中难以开展大规模AI训练的难题,通过标准化流程实现一键部署,显著降低开发门槛。借助ROCK,开发者能够高效训练AI执行复杂任务,无需手动构建训练环境,大幅提升研发效率。这一创新为AI智能体的迭代与应用提供了强有力的技术支持。
最近推出的面向令牌的对象表示法(TOON)作为一种新型数据格式,旨在显著降低大型语言模型(LLM)的运行成本。作为JSON的高效替代方案,TOON通过优化数据结构设计,有效减少令牌消耗,在保持与JSON相近精度的同时实现更高的传输与处理效率。基准测试表明,TOON在特定场景下可比JSON减少高达40%的令牌使用量,从而大幅降低模型推理和数据交互的成本。这一技术为大规模语言模型的应用提供了更具成本效益的数据交换解决方案,尤其适用于高频率、大数据量的AI服务场景。
无问芯穹公司近期完成近5亿元人民币的A+轮融资,资金将重点投向Agentic Infra基础设施建设。此举旨在推动云计算与终端基础设施的智能化升级,打造智能体技术应用的实验场,加速技术从概念展示迈向规模化生产。公司致力于构建如水电气般普惠的智能基础设施,使智能体技术广泛服务于各行各业及家庭场景,助力人工智能进入普适化应用新阶段。
在苹果平台上,开发者在集成语言模型时常面临生态分散的挑战,不同模型的接口差异增加了开发复杂度。为解决这一问题,AnyLanguageModel应运而生——一个全新的Swift语言包,旨在通过提供统一API接口,简化本地与云端语言模型的集成流程。该工具支持多种主流语言模型,使开发者能够以一致的方式调用功能,显著提升开发效率并降低维护成本。AnyLanguageModel不仅兼容iOS、macOS等苹果生态系统平台,还优化了内存使用与响应速度,适用于从轻量级应用到复杂AI驱动功能的广泛场景。
亚马逊公司近日宣布,其产品Amazon Bedrock AgentCore Runtime已成功集成A2A协议,标志着智能体技术在互操作性方面迈出关键一步。A2A协议支持基于不同框架构建的智能体实现高效通信与协作,打破技术孤岛,推动多智能体工作流环境的构建。该集成使开发者能够更灵活地设计、部署和管理跨平台智能体应用,显著提升自动化系统的协同效率。亚马逊此举旨在加速企业级AI应用的落地,为金融、制造、医疗等行业提供更加开放、可扩展的智能解决方案。
通过融合飞桨引擎与文心大模型两大AI技术,结合语音输入、手写订单拍摄及图片上传等功能,某销售场景实现了智能开单的突破性进展。以往为火锅店客户下单需耗时5分钟,如今缩短至几秒钟,效率提升近30倍,显著提升了业务响应速度与客户满意度。该案例充分展现了人工智能在实际商业应用中的巨大潜力,特别是在销售流程自动化和数据处理智能化方面的核心价值。
在当前复杂的数据环境中,获取应用资源使用情况的深入洞察已成为技术优化的关键。Grafana Labs 在 Grafana 10.3 版本中引入了 Span Profiles 功能,标志着持续剖析技术迈出了重要一步。该功能通过精细化追踪和分析分布式系统中的 Span 数据,帮助开发者更直观地理解应用在不同阶段的资源消耗情况,从而提升性能调优的效率与准确性。随着数据洞察需求的不断增长,持续剖析正成为可观测性领域不可或缺的能力。




