Qwen3家族的训练秘籍近日被公开,展示了如何将思考与非思考过程融合进单一模型中。通过大模型蒸馏技术,Qwen3显著提升了小模型性能。该系列包含6个密集模型,参数量从0.6亿至32亿不等,另有2个MoE模型,总参数量分别为30亿和235亿,激活时参数量为3亿和22亿。这一创新为模型优化提供了新思路。
客服热线请拨打
400-998-8033