siliconflow/qwen/qwen3-vl-32b-instruct

硅基流动
文本生成编程智能体视觉PrefixTools32B256KMoE

Qwen3-VL-32B-Instruct 是一个大规模的多模态视觉语言模型,设计用于在文本、图像和视频方面进行高精度理解和推理。拥有32B个参数,它结合了深度视觉感知与先进的文本理解,实现了细粒度的空间推理、文件和场景分析以及长远景视频理解。支持32种语言的稳固OCR,并通过Interleaved-MRoPE和DeepStack架构实现了增强的多模态融合。优化于代理交互和视觉工具使用,Qwen3-VL-32B为复杂的真实世界多模态任务提供了最先进的性能。

模型基本信息

输入类型:文本、图像、视频
输出类型:文本
TPM:80,000
上下文长度262K
最大输入长度:262K
最大输出长度:66K

模型特性

工具调用
结构化输出
前缀续写
视觉输入
推理

模型价格

条件计费项价格
输入 <256k输入1元 / M Tokens
输出4元 / M Tokens

调用示意

CURL
查看AppKey