siliconflow/Qwen/Qwen-Image

硅基流动
图片 多模态文生图 图生图 风格转换 图像局部编辑 (Inpainting) 人物一致性保持 基于参考的合成 多图融合 复杂语义遵循

Qwen-Image 是由阿里巴巴通义千问团队发布的图像生成基础模型,拥有 200 亿参数。该模型在复杂的文本渲染和精确的图像编辑方面取得了显著进展,尤其擅长生成包含高保真度中英文文字的图像。Qwen-Image 不仅能够处理多行布局和段落级文本,还能在生成图像时保持排版的连贯性和上下文的和谐。除了卓越的文本渲染能力,该模型还支持广泛的艺术风格,从写实照片到动漫美学,能够灵活适应各种创作需求。同时,它也具备强大的图像编辑和理解能力,支持风格迁移、物体增删、细节增强、文本编辑乃至人体姿态操控等高级操作,旨在成为一个集语言、布局和图像于一体的综合性智能视觉创作与处理基础模型

模型基本信息

输入类型:文本、图像 (支持多图交错输入)
输出类型:文本
上下文长度--
最大输入长度:--
最大输出长度:--

模型特性

多图输入理解 (支持同时交错输入多张图片)
细粒度视觉识别 (支持物体检测与定位)
多轮视觉对话
OCR 文本提取
图像描述生成

模型价格

计费项价格
输出0.3元 / 每图

调用示意

CURL
curl -X POST  "https://route.showapi.com/3343-2" \
-H "Authorization: Bearer [AppKey]" \
-H "Content-Type: application/json" \
-d '{
    "messages": [
        {
            "role": "user",
            "content": "介绍你的能力和优势,并给出你的名字"
        }
    ],
    "model": "siliconflow/Qwen/Qwen-Image",
    "stream": true,
    "temperature": 0.7
}'