Qwen3-VL-32B-Instruct 是一个大规模的多模态视觉语言模型,设计用于在文本、图像和视频方面进行高精度理解和推理。拥有32B个参数,它结合了深度视觉感知与先进的文本理解,实现了细粒度的空间推理、文件和场景分析以及长远景视频理解。支持32种语言的稳固OCR,并通过Interleaved-MRoPE和DeepStack架构实现了增强的多模态融合。优化于代理交互和视觉工具使用,Qwen3-VL-32B为复杂的真实世界多模态任务提供了最先进的性能。
| 条件 | 计费项 | 价格 |
|---|---|---|
| 输入 <256k | 输入 | 1元 / M Tokens |
| 输出 | 4元 / M Tokens |
curl -X POST "https://route.showapi.com/openai/v1/chat/completions" \
-H "Authorization: Bearer [AppKey]" \
-H "Content-Type: application/json" \
-d '{
"messages": [
{
"role": "user",
"content": "介绍你的能力和优势,并给出你的名字"
}
],
"model": "siliconflow/qwen/qwen3-vl-32b-instruct",
"stream": true,
"temperature": 0.7
}'