在2025年国际计算机视觉大会(ICCV 2025)上,由浙江大学、香港中文大学、上海交通大学与上海人工智能实验室联合研发的EgoAgent引发广泛关注。该智能体首次实现第一人称视角下的感知、行动与预测一体化,突破传统计算机视觉系统在动态环境理解中的局限。通过融合多模态感知与实时决策机制,EgoAgent能够在复杂场景中自主完成任务规划与行为预测,显著提升人机交互的自然性与准确性。此项研究为智能机器人、自动驾驶及增强现实等领域提供了全新的技术路径,代表了第一人称视觉智能的重要进展。
清华大学最新发布的工业控制专用神经网络模型TIV'25,在机器人与自动驾驶领域实现重要突破。该模型采用强化学习训练控制策略,显著降低动作波动率,降幅高达70%,有效缓解了控制动作不平滑带来的硬件磨损、系统过热及环境失稳等问题。作为制约强化学习实际应用的关键瓶颈,动作震荡的抑制为技术落地提供了可行路径。TIV'25的推出有望加速强化学习在工业控制等高精度场景中的广泛应用。
在空间智能领域,全景数据的匮乏长期制约技术发展。为应对这一挑战,影石研究院推出基于DiT架构的全景图像生成模型DiT360。该模型采用创新的生成框架,能够高效合成高质量全景图像,显著缓解数据稀缺问题。凭借其开源特性,DiT360支持在线体验,并为开发者与研究人员提供了灵活的二次开发与应用空间,推动空间智能领域的数据生成与技术创新。
最新研究显示,语音助手在语音交流中的准确率显著下降。杜克大学与Adobe联合发布的VERA研究报告指出,当GPT模型通过语音输出时,其准确率从文本交互的74.8%骤降至6.1%。该研究首次系统评估了语音输入对AI推理能力的影响,涵盖12个主流语音识别系统,并采用2931个专门设计的测试题进行验证,揭示了语音交互模式下AI理解能力的重大挑战。
英伟达与麻省理工学院(MIT)联合研发了一项突破性的AI视频技术——LongLive,该技术实现了长视频的实时交互生成,显著简化了视频创作流程。通过边输入文字边生成画面的方式,LongLive确保了视频在长达240秒的情况下仍保持画面连贯与节奏流畅,有效解决了传统制作中常见的卡顿与不连贯问题。无论是15秒短视频还是较长时间的内容,用户均可轻松完成高质量视频创作,大幅降低技术门槛,推动AI赋能内容创作的普及化进程。
为应对大型模型在推理过程中速度慢、生成token延迟高的问题,莫纳什大学、北京航空航天大学与浙江大学联合提出R-Stitch框架。该框架通过模型协作与动态拼接机制,依据任务风险评估智能分配小型或大型模型处理相应部分:简单任务由小模型高效完成,关键环节则交由大模型确保准确性。实验结果表明,R-Stitch最高可实现4倍的推理加速,同时保持高准确率,显著提升了推理效率与资源利用率。
本文记录了一位零Unity开发经验的开发者如何借助AI技术从零开始尝试开发一款卡牌策略游戏。项目未追求复杂功能,而是聚焦于验证AI辅助开发全流程的可行性。通过使用自然语言生成代码、AI驱动的游戏逻辑设计以及自动化测试工具,开发者在短时间内完成了基础框架搭建与核心玩法实现。整个过程体现了AI在降低开发门槛、提升创作效率方面的潜力,为非专业开发者提供了可行路径。
蚂蚁集团技术负责人王月凡将出席2024年QCon上海会议,发表关于多智能体系统的技术演讲。他将从Context Engineering的视角出发,深入探讨在构建复杂智能体过程中面临的核心挑战与实践经验。王月凡将分享蚂蚁集团在智能体编程方法上的前沿探索,展示如何通过结构化编程手段提升智能体间的协同效率与系统可维护性。此次演讲旨在为开发者提供可落地的技术路径,推动多智能体系统在金融、风控等高复杂度场景中的应用深化。
随着人工智能技术的快速发展,越来越多程序员将AI音乐创作作为高收益副业。他们利用算法批量生成潜在热门音乐作品,仅需投入少量时间进行10%的错误修正与10%的创意润色,即可完成整体制作。这种高效模式大幅降低了创作门槛,使技术与艺术结合产生可观经济价值。通过平台分发,部分创作者已实现稳定收益,形成可持续的内容生产循环。AI音乐不仅拓展了创作边界,也为程序员提供了全新的变现路径。
NeurIPS 2025会议正式接收了一项由火山引擎多媒体实验室与南开大学联合研发的创新成果——TempSamp-R1框架。该研究聚焦于视频理解大模型中的时序建模难题,提出了一种基于强化学习的新型采样机制,显著提升了模型对长时序动作和复杂动态场景的理解能力。实验表明,TempSamp-R1在多个主流视频理解基准测试中表现优异,平均准确率提升达5.3%,为视频内容分析、智能监控和人机交互等应用提供了强有力的技术支持。此项工作标志着国内学术界与产业界在多模态人工智能前沿领域的深度合作取得重要突破。
本方案提出基于TRAE(Test Robotic Automation Engine)的自动化测试用例智能生成方法,通过集成Playwright MCP(Modular Control Protocol)工具,实现将自然语言描述的测试步骤自动转化为Web用户界面操作序列。该方法利用TRAE智能体对测试需求的理解能力,结合Playwright强大的浏览器自动化控制功能,显著提升测试用例生成的智能化水平与执行效率,降低人工编写成本,增强测试覆盖度与可维护性。
李飞飞创立的公司近日宣布一项重大技术突破:其全球模型现可在单个H100硬件上运行,相较于传统同类模型所需的计算资源,算力需求降低了多个数量级。这一创新标志着人工智能在高效推理与部署方面迈出了关键一步,极大降低了全球模型的运行门槛和成本。该技术革新不仅提升了模型的可及性,也为边缘计算和实时应用开辟了新路径,展现出深远的产业影响。
2025年深圳国际金融科技大赛的技术公开课正在火热开展,赛事报名通道持续开放。本次大赛聚焦金融科技前沿领域,设有AI竞赛与数据分析竞赛两大赛道,旨在激发青年创新潜能,推动技术与金融的深度融合。目前,参赛者可通过大赛官方网站获取最新赛程信息与技术资料,或在小红书平台搜索并关注官方账号“金融科技大赛小助手”了解动态。无论你是高校学生还是技术爱好者,现在报名正当时,共同角逐金融科技领域的年度盛事。
科大讯飞近期发布了一款全新AI翻译耳机,标志着其在智能语音与人工智能翻译领域的进一步布局。发布会后,公司高管在接受InfoQ等媒体采访时,详细阐述了讯飞在AI翻译技术上的战略方向,强调以“场景驱动、技术深耕”为核心,持续优化多语种实时翻译能力。据悉,该耳机搭载了讯飞自研的语音识别与神经网络翻译模型,支持83种语言在线翻译,离线状态下亦可实现16种主要语言互译,翻译准确率达98.5%。高管指出,产品设计充分考量了商务出行、国际交流等实际应用场景,结合降噪拾音与低延迟传输技术,提升用户体验。未来,科大讯飞将持续投入跨语言AI理解能力的研发,推动翻译技术从“听得清”向“懂语义”演进。
在人工智能生成图像(AI生图)领域,谷歌最新推出的轻量级模型“Nano Banana”正迅速改变市场竞争格局。该模型凭借高效的图像生成速度和低资源消耗,在性能与实用性上展现出显著优势,直接对Adobe旗下Firefly等创意工具构成挑战。随着谷歌持续优化其AI生图技术,行业正面临从专业软件主导转向AI驱动内容创作的范式变革。这一趋势不仅加剧了科技巨头与传统创意软件厂商之间的竞争,也推动图像编辑市场加速融合AI功能,重塑未来内容创作生态。
即将实施的人工智能法规正引发企业信息技术负责人的广泛关注与担忧。最新调查显示,超过70%的IT领袖将法规合规视为部署通用人工智能(GenAI)过程中面临的三大挑战之一。随着监管框架逐步明确,企业面临日益严峻的合规要求,一旦违规可能招致高额罚款,这进一步加剧了技术决策者的焦虑。在推动创新的同时,如何确保GenAI的应用符合法律规范,已成为企业战略规划中的关键议题。




