市场|导航

siliconflow/z-ai/glm-4.6v

硅基流动

VLM多模态模型图文理解模型图像理解文档解析多模态推理 OCR语义长上下文

GLM-4.6V 系列是 GLM 系列在多模态方向上的一次重要迭代，包含 GLM-4.6V（旗舰版）、GLM-4.6V-FlashX（轻量高速版）、GLM-4.6V-Flash（完全免费）。它将训练时上下文窗口提升到128k tokens，在视觉理解精度上达到同参数规模 SOTA，并首次在模型架构中将 Function Call（工具调用）能力原生融入视觉模型，打通从「视觉感知」到「可执行行动（Action）」的链路，为真实业务场景中的多模态 Agent 提供统一的技术底座。

模型基本信息

输入类型：文本、图像

输出类型：文本

TPM：600,000

上下文长度131K

最大输入长度：131K

最大输出长度：8K

模型特性

多模态理解

图像理解

工具调用

结构化输出

多步推理

文档解析

API部署与调用

CURL

curl --location -g --request POST "https://api.example.com/v1/chat/completions" \
--header "Authorization: Bearer $API_KEY" \
--header "Content-Type: application/json" \
--data-raw '{
    "messages": [
        {
            "role": "user",
            "content": "你可以帮我做什么"
        }
    ],
    "model": "zai-org/GLM-4.6V",
    "stream": false
}'