技术博客

几何推理新篇章：淘天集团推出Gemini-2.0专项评测

淘天集团近期推出了全球首个专注于几何推理的专项评测——Gemini-2.0。这一双语综合基准从几何原理出发，全面评估多模态大型模型解决几何问题的能力，标志着几何推理领域的重要进展。Gemini-2.0不仅推动了多模态模型的技术边界，还为跨语言几何推理研究提供了新标准。

几何推理Gemini-2.0多模态模型双语基准淘天集团

2025-04-28

开源图像编辑技术革新：多模态模型的应用与未来

随着大模型行业迈入“多模态时代”，阶跃公司发布的模型中有70%为多模态模型，这些模型代表了当前图像编辑领域的最新开源技术。多模态能力对于智能Agent的发展至关重要，因此，今年阶跃公司显著加大了在智能终端Agent领域的投入，致力于推动技术的实际应用落地，为用户提供更高效、智能的服务。

多模态模型开源技术智能Agent图像编辑阶跃公司

2025-04-28

CHiP技术革新：跨模态优化实现幻觉率显著降低

CHiP技术在AAAI2025与ICLR2025会议上备受瞩目，其通过引入视觉偏好，提出跨模态分层优化方法，结合文本与视觉双重引导，显著提升多模态大型语言模型（MLLMs）的幻觉检测能力，幻觉率最高降低55.5%。这一创新为多模态模型的发展提供了新方向。

CHiP技术幻觉率降低跨模态优化视觉偏好多模态模型

2025-04-28

多模态大型语言模型的新突破：TokenShuffle技术解析

近日，由Meta、西北大学与新加坡国立大学等机构共同开展的一项研究，揭示了多模态大型语言模型（MLLMs）的新突破。研究团队提出了一种名为TokenShuffle的技术，通过减少视觉Token数量有效降低了计算成本，同时显著提升了图像合成效率。借助该技术，模型首次在自回归框架下实现了2048×2048分辨率的高精度图像生成。此外，华人第一作者还展示了类似GPT-4o的技术在扩散模型中的应用，其性能已超越当前行业领先水平。

多模态模型TokenShuffle高分辨率图像计算成本扩散模型

2025-04-28

多模态大型语言模型的技术革新：TokenShuffle解析

一项由Meta、西北大学与新加坡国立大学等机构联合开展的研究，提出了一种名为TokenShuffle的优化技术。该技术通过减少视觉Token数量，显著降低了计算复杂度，同时支持生成高达2048×2048分辨率的高清晰度图像。这项由华人研究者主导的技术，在图像生成领域超越了扩散模型，实现了自回归模型的重要突破，被认为是GPT-4o技术的同类产品。

多模态模型TokenShuffle图像生成高清晰度自回归模型

2025-04-28

多模态大型模型技术：人工智能的新篇章

在人工智能技术快速发展的今天，多模态大型模型技术已成为研究热点。该技术使AI系统能够同时处理文本、图像和音频等多类型数据，为具身智能体的发展提供了全新可能。通过整合多种数据形式，多模态模型不仅提升了数据处理效率，还推动了人工智能领域的技术进步。

人工智能多模态模型具身智能技术进步数据处理

2025-04-25

原生多模态图像生成API：引领图像创作的未来

OpenAI近期推出了全新的图像生成API，这一基于原生多模态模型的技术突破，以每张图像仅0.02美元的低成本，提供高质量的图像生成服务。新模型不仅能够结合世界知识生成更贴合上下文的图像，还支持多种自定义功能，极大提升了灵活性与实用性，标志着图像生成技术的重要进展。

图像生成API多模态模型低成本图像世界知识应用自定义功能

2025-04-24

ChatGPT图像技术的突破：gpt-image-1模型的革新应用

OpenAI近期将其API功能扩展至图像生成领域，引入了基于ChatGPT的新技术。通过名为'gpt-image-1'的多模态模型，用户可按每张图约2美分的价格生成多种风格的图像。该模型支持开发者同时生成多张图片，并根据需求调整质量与速度，为创意设计和内容生产提供了高效解决方案。

ChatGPT图像技术多模态模型图像生成gpt-image-1API功能扩展

2025-04-24

探秘快手多模态模型：引领AIGC场景的未来发展趋势

快手公司多模态模型算法领域的负责人高欢确认出席在上海举办的AICon大会。会上，她将深入探讨多模态理解技术在人工智能生成内容（AIGC）场景中的实际应用，并展望多模态理解数据的未来发展与潜在价值。这一分享将为人工智能领域带来新的启发与思考。

多模态模型人工智能AIGC场景快手公司AICon大会

2025-04-22

多模态大型模型：引领人脸防伪检测新篇章

近日，由厦门大学与腾讯优图等机构联合开展的一项关于多模态大型模型在人脸防伪检测领域的研究成功入选CVPR 2025。该研究创新性地引入语言模态技术，显著提升了伪造内容的识别能力。不仅能够精准判断图像或视频的真实性，还能够通过清晰的语言解释检测结果，为相关领域提供了新的技术思路。

人脸防伪检测多模态模型CVPR 2025语言模态技术伪造内容识别

2025-04-22

苹果公司人工智能新进展：原生多模态模型研究揭秘

苹果公司在人工智能领域取得了突破性进展，发现多模态模型的扩展规律。研究表明，通过早期融合不同模态的信息，模型性能优于后期融合。此外，混合专家（MoE）模型的表现显著强于传统密集模型。这些成果推动了大型多模态模型的发展，使其更高效地感知与理解世界，成为AI研究的焦点。

多模态模型人工智能混合专家早期融合苹果研究

2025-04-16

北京大学研究团队VARGPT-v1.1：视觉生成模型的创新与挑战

北京大学研究团队在视觉自回归生成理解编辑领域取得新突破，开发出多模态模型VARGPT-v1.1。该模型虽在图像编辑能力上仍与商业生成模型存在差距，但其开源的训练数据和代码为学术界与工业界提供了重要资源，促进了进一步研究与应用。这一进展标志着视觉生成技术迈向更广泛合作的新阶段。

视觉生成模型多模态模型图像编辑能力开源代码数据学术工业合作

2025-04-16

AI图像理解的边界：时空智能基准的挑战与启示

AI在图像理解领域展现卓越能力，但计算距离时存在局限性。上海交通大学近期提出时空智能基准测试，评估了9个顶尖多模态模型的表现。这些模型在具身智能与自动驾驶领域应用渐广，然而其对复杂物理世界的理解能力仍需进一步验证。

AI图像理解多模态模型时空智能具身智能自动驾驶

2025-04-15

GPT-4o模型的图像生成新纪元：创新案例与突破

GPT-4o作为OpenAI推出的最新旗舰多模态模型，在图像生成领域取得了显著突破。本文通过一系列精cai且有趣的案例，展示了该模型的创新成果。从艺术创作到现实场景还原，GPT-4o以强大的多模态能力重新定义了图像生成的可能性，为用户带来前所未有的体验。

GPT-4o模型图像生成多模态模型创新成果案例展示

2025-04-15

中国科学技术大学与中兴通讯联手创新：小型多模态模型的后训练方法解读

中国科学技术大学与中兴通讯合作提出了一种新型后训练方法，专注于优化小型多模态模型。该方法成功复现了R1推理和视觉语言模型（VLM）的性能，为当前主流的监督微调（SFT）技术提供了替代方案。通过减少对大规模数据的依赖，这一创新有望降低训练成本，提升模型效率，推动多模态模型在更多场景中的应用。

后训练方法多模态模型视觉语言模型监督微调小型模型

2025-04-15

小型多模态模型：后训练范式的革新之路

近期，中国科学院大学与中兴通讯联合提出了一种创新的后训练范式，专注于开发小型多模态模型。尽管这些模型规模较小，但在多模态理解领域表现出显著性能，成功复现了R1推理。随着大型语言模型（LLMs）的发展，多模态理解技术取得了突破性进展。当前，OpenAI、InternVL和Qwen-VL系列等先进的视觉-语言模型（VLMs），在处理复杂视觉-文本任务时展现了卓越能力。

多模态模型后训练范式视觉语言模型小型模型性能复杂任务处理

2025-04-14

AI热点

2025-07-21

谷歌云平台全新升级：非中断式迁移与重定位功能的深度解读

科技热点

谷歌云平台全新升级：非中断式迁移与重定位功能的深度解读