siliconflow/qwen/qwen3-vl-32b-instruct

硅基流动

文本生成编程智能体视觉PrefixTools32B256KMoE

Qwen3-VL-32B-Instruct 是一个大规模的多模态视觉语言模型，设计用于在文本、图像和视频方面进行高精度理解和推理。拥有32B个参数，它结合了深度视觉感知与先进的文本理解，实现了细粒度的空间推理、文件和场景分析以及长远景视频理解。支持32种语言的稳固OCR，并通过Interleaved-MRoPE和DeepStack架构实现了增强的多模态融合。优化于代理交互和视觉工具使用，Qwen3-VL-32B为复杂的真实世界多模态任务提供了最先进的性能。

模型基本信息

输入类型：文本、图像、视频

输出类型：文本

TPM：80,000

上下文长度262K

最大输入长度：262K

最大输出长度：66K

模型特性

工具调用

结构化输出

前缀续写

视觉输入

推理

模型价格

条件	计费项	价格
输入 <256k	输入	1元 / M Tokens
输入 <256k	输出	4元 / M Tokens

调用示意

CURL

查看AppKey