技术博客

“探索未知领域：Moonshot AI开源Kimi-VL多模态模型的突破性进展”

Moonshot AI 开源了一款名为 Kimi-VL 的轻量级多模态模型，该模型拥有 2.8B 参数，基于 MoE（Mixture of Experts）架构设计，性能可媲美当前最佳模型（SOTA）。作为月之暗面研究的最新成果，Kimi-VL 不仅高效且易于部署，为多模态任务提供了新的解决方案。

Kimi-VL模型多模态模型MoE架构开源项目月之暗面研究

2025-04-14

MetaQuery方法：开启多模态模型快速生成的先河

近日，谢赛宁团队发表了一项名为MetaQuery的新技术。该方法由Meta与纽约大学共同研发，旨在使多模态模型快速具备生成能力，其效果可媲美GPT-4o。传统观点认为，这种能力需通过微调大型语言模型（MLLM）实现，而MetaQuery以简单高效的方式打破了这一限制，为多模态生成领域带来了新的可能性。

MetaQuery方法多模态模型快速生成大型语言模型GPT-4o效果

2025-04-14

探究Qwen2.5-Omni：开启多模态大模型新纪元

阿里Qwen团队近期推出了Qwen2.5-Omni多模态大模型，该模型具备7B参数版本，能够统一处理文本、图像、音频和视频等多种输入形式。同时，Qwen2.5-Omni支持以流式方式生成文本和语音响应，为用户提供更高效、智能的交互体验。

Qwen2.5-Omni多模态模型文本图像处理流式生成7B参数版本

2025-04-14

迈向多模态未来：首个统一多模态模型评测标准的发布与影响

首个统一多模态模型评测标准已发布，DeepSeek Janus在开源模型中表现突出，展现出卓越的理解能力。然而，与闭源模型相比仍存在差距。当前，GPT-4o和Gemini-2.0-flash等模型通过强大的跨模态输入处理能力，能够生成高质量的图像或文本内容，推动了统一多模态大模型（U-MLLMs）领域的快速发展。

多模态模型DeepSeek Janus统一标准跨模态输入生成能力

2025-04-10

DeepSeek Janus：统一多模态模型评测的新标杆

DeepSeek Janus作为首个统一多模态模型评测标准，在理解能力方面超越了开源模型，但在与闭源模型的对比中仍存在一定差距。尽管如此，其在任务适应性和灵活性上表现突出，相较于传统多模态模型如GPT-4V或DALL·E 3，展现出更大的潜力。这一进展为多模态模型的发展提供了新的方向和评估依据。

多模态模型DeepSeek Janus理解能力任务适应性开源模型

2025-04-10

Agent技术的演进：从人驱动到模型驱动的未来展望

随着人工智能技术的发展，Agent技术正从“人驱动”向“模型驱动”转变。预计到2025年，Agent技术将迎来快速发展，主要体现在模型推理能力的提升、多模态模型的进展以及代码生成技术的进步。同时，通用Agent与本地Agent的不同模式及其技术选择也将影响未来发展方向。尽管前景广阔，但Agent技术仍面临诸多挑战，如数据安全与伦理问题。

人工智能Agent技术模型推理多模态模型代码生成

2025-04-08

2025年Agent技术革新：从'人驱动'到'模型驱动'的演进之路

随着人工智能技术的快速发展，2025年Agent技术正从“人驱动”向“模型驱动”转变。这一过程中，模型推理能力的提升、多模态模型的发展以及代码生成技术的进步成为关键推动力。同时，通用Agent与本地Agent在不同场景下的应用模式和技术选择也逐渐清晰。这些变化不仅提升了Agent技术的能力边界，还为未来的技术发展带来了新的挑战与机遇。

Agent技术模型推理多模态模型代码生成未来发展

2025-04-08

GPT-4.5创造力探究：深度解析Creation-MMBench基准测试

最新研究表明，GPT-4.5在创造力方面较GPT-4有所下降。浙江大学上海人工智能实验室为此推出了名为Creation-MMBench的评估基准测试，专注于多模态大型模型的实际创作能力。该基准测试包含765个实例，覆盖51个具体任务，并制定了针对模型回复质量和视觉准确性的详细标准，为多模态模型的性能评估提供了重要参考。

GPT-4.5创造力Creation-MMBench多模态模型评估基准测试视觉准确性

2025-04-07

Llama 4最新版：开源领域的突破与创新

Llama 4的最新版本在开源领域取得了显著成就，推出了具有两万亿参数的超大模型。同时，DeepSeek模型以一半的参数量实现了与Llama 4同等的代码能力，并能在单张H100 GPU上运行。此外，Llama 4 Scout作为一款多模态模型，拥有170亿激活参数，支持高达10M的上下文窗口，由16位专家共同开发，达到同类模型中的最佳性能（SOTA）。

Llama 4DeepSeek模型H100 GPU多模态模型两万亿参数

2025-04-07

GPT-4.5创造力受限：探索Creation-MMBench评估标准

近日，浙江大学上海人工智能实验室推出了一项名为Creation-MMBench的评估基准，专门用于衡量多模态大型模型在实际场景中的创作能力。该基准包含765个实例，覆盖51项具体任务，并制定了详细的评价标准，以评估模型生成回复的质量和视觉内容的真实性。根据这一基准测试，中文文章指出GPT-4.5在创造力方面的表现略逊于GPT-4，引发了业界对多模态模型性能的进一步探讨。

GPT-4.5创造力Creation-MMBench多模态模型回复质量评估视觉内容真实性

2025-04-07

华为与哈工大深圳团队联手，AdaReTaKe算法引领长视频理解新篇章

华为与哈尔滨工业大学深圳团队联合提出了一种名为AdaReTaKe的新型算法，在多个榜单中表现卓越。该算法专注于长视频理解，为多模态大型模型解决了关键挑战。长视频理解能力的提升对智慧安防、智能体长期记忆及多模态深度思考具有重要意义，进一步推动了技术在实际场景中的应用。

华为合作AdaReTaKe算法长视频理解多模态模型智慧安防

2025-04-05

4D LangSplat：开启动态场景下的语义理解新篇章

在CVPR 2025会议上，清华大学与哈佛大学联合推出了4D LangSplat技术。该技术结合多模态大型语言模型与动态三维高斯泼溅技术，构建了动态语义场，可高效准确处理动态场景下的开放文本查询任务，标志着人工智能领域的重要突破。

4D LangSplat动态语义场多模态模型开放文本查询人工智能进展

2025-04-03

多模态模型视觉表征：语言监督的必要性与挑战

在最新的研究中，Yann LeCun与谢赛宁等人探讨了多模态模型视觉表征预训练中的核心问题：语言监督是否为必要条件。该研究挑战了视觉问答（VQA）任务中对语言监督的传统依赖，通过自监督学习（SSL）方法，在视觉表征领域取得了媲美CLIP模型的成果，为多模态模型的发展提供了新思路。

多模态模型视觉表征语言监督自监督学习视觉问答

2025-04-03

探索未来语言处理：4D LangSplat模型的突破与创新

近日，清华大学与哈佛大学联合提出了一种名为4D LangSplat的先进模型。该模型结合多模态大型语言模型与动态三维高斯泼溅技术，构建了高效的动态语义场。通过生成物体级别的详细语言描述，并借助状态变化网络对语义特征进行平滑建模，4D LangSplat显著提升了动态场景中开放文本查询任务的处理能力。

4D LangSplat动态语义场多模态模型开放文本查询状态变化网络

2025-04-02

OThink-MR1：引领多模态模型技术新篇章

OPPO研究院与香港科技大学广州分校的研究团队共同开发了创新技术OThink-MR1。该技术通过将强化学习融入多模态语言模型，显著提升了模型在复杂任务中的表现及对新场景的适应能力，进一步增强了其泛化推理能力。这一突破为多模态模型的应用开辟了更广阔的空间。

OThink-MR1强化学习多模态模型泛化推理复杂任务

2025-04-01

探究Qwen 2.5-Omni：开启多模态人工智能新纪元

阿里公司近日在深夜正式发布了Qwen 2.5-Omni版本，这是一款拥有70亿参数的先进多模态大型人工智能模型。该模型专为全面多模式感知设计，能够高效处理文本、图像、音频和视频等多种类型的数据输入。同时，Qwen 2.5-Omni支持连续文本生成功能与自然语音合成输出，使信息传递更加直观与流畅，为用户提供卓越的人工智能体验。

Qwen 2.5-Omni多模态模型文本生成语音合成人工智能

2025-03-27

AI热点

2025-07-21

谷歌云平台全新升级：非中断式迁移与重定位功能的深度解读

科技热点

谷歌云平台全新升级：非中断式迁移与重定位功能的深度解读