技术博客

Qwen3家族训练秘籍揭秘：大模型蒸馏与小模型性能提升之道

Qwen3家族的训练秘籍近日被公开，展示了如何将思考与非思考过程融合进单一模型中。通过大模型蒸馏技术，Qwen3显著提升了小模型性能。该系列包含6个密集模型，参数量从0.6亿至32亿不等，另有2个MoE模型，总参数量分别为30亿和235亿，激活时参数量为3亿和22亿。这一创新为模型优化提供了新思路。

Qwen3家族大模型蒸馏非思考过程MoE模型参数量

2025-05-14

Qwen3模型：开启开源领域新纪元

Qwen3模型以235B的参数量和混合推理技术，成为开源领域的全新领导者。作为国内首个实现全面开源的系列模型，Qwen3包含8个子模型，标志着从单一模型向智能体转变的加速进程。这一突破不仅体现了参数规模的增长，更代表了智能技术边界的扩展，为未来的技术革新奠定了坚实基础。

Qwen3模型开源领域混合推理参数量智能技术

2025-04-29

人工智能梦想与现实：通用智能之路漫漫

清华大学和中国人民大学的最新研究表明，实现真正的人工通用智能（AGI）仍需70年时间。研究指出，达到自主级智能所需的参数量为10的26次方，而支持这一智能水平的GPU总价将达苹果市值的4×10的7次方倍。这为当前火热的人工智能领域泼了一盆冷水，揭示了通往AGI道路上的巨大挑战。

人工智能通用智能参数量GPU需求研究预测

2025-03-10

探索大模型的无限可能：神经网络与参数量的新篇章

大模型，即那些参数量超过十亿的神经网络模型，在当今的人工智能领域中扮演着至关重要的角色。这些模型凭借其庞大的参数规模，能够高效处理复杂的任务，如自然语言处理和图像识别等。通过深度学习算法，大模型可以模拟人类大脑的工作机制，对大量数据进行分析与理解，从而实现精准的任务执行。无论是文本生成、语义理解，还是视觉对象检测，大模型都展现出了卓越的能力。

大模型神经网络参数量自然语言图像识别

2025-03-03

深度解析DeepSeek-R1：671B参数规模的深度学习模型架构探究

DeepSeek-R1（DeepSeek-V3）是一款先进的深度学习模型，其复杂性体现在庞大的模型架构中。该模型拥有671B个参数，这一数量级的参数量使其在处理任务时具有极高的灵活性和精确度。值得注意的是，在运行过程中，每个标记能够激活37B个参数，这确保了模型对不同输入有着敏锐且精准的响应能力，从而为深度学习领域带来了新的突破。

深度学习模型架构参数量标记激活DeepSeek

2025-02-19

开源AI视频模型的崛起：腾讯Hunyuan-Large的创新与突破

腾讯公司近日发布了一款名为Hunyuan-Large的开源AI视频模型，该模型拥有130亿参数，其性能与闭源模型相媲美，甚至在某些方面超越了Runway Gen-3和Luma 1.6。为了更好地适应用户提供的不同风格和长度的提示，腾讯团队对Hunyuan-Large模型进行了微调，开发了一个提示重写模型，该模型能够将用户的原始提示转换成模型更偏好的格式，从而提高处理效率和准确性。

开源AI视频模型参数量提示重写腾讯

2024-12-04

深度神经网络在计算机视觉处理中的应用解析

在深度学习领域，特别是在计算机视觉和自然语言处理等任务中，深度神经网络（DNN）因其庞大的参数量而闻名。这些模型通过多层次的抽象表示，能够捕捉数据中的复杂模式，从而在各种任务中取得卓越的性能。然而，庞大的参数量也带来了计算资源和训练时间的挑战，研究者们不断探索优化方法以提高效率。

深度学习神经网络参数量计算机视觉处理

2024-12-02

AI发展遭遇瓶颈：规模法则与量化技术的临界点

在AI领域中，关于规模法则（Scaling Law）和量化技术的发展是否已达到瓶颈的问题，引起了广泛关注。多位AI领域的专家对此表示认同。为了验证这一预测的准确性，研究人员对超过465次的预训练实验数据进行了分析和拟合，并在参数量高达1.7亿、训练过程中处理了高达260亿个token的模型上进行了验证。研究结果表明，尽管这些技术在某些方面取得了显著进展，但确实面临一些难以克服的挑战。

AI瓶颈规模法则预训练参数量token

2024-11-13

深入浅出GPT-J：解析60亿参数的自然语言处理巨兽

本文将介绍GPT-J这一基于GPT-3架构的人工智能模型，其拥有大约60亿个参数，专为处理自然语言设计。通过在包含800GB数据的开源文本集上进行训练，GPT-J旨在实现与GPT-3相近的性能表现。文中还将提供丰富的代码示例，以便读者更好地理解和应用这一技术。

GPT-J自然语言参数量数据集代码示例

2024-10-08

AI热点

2025-05-15

Node.js中的阻塞与非阻塞I/O机制：性能提升的关键

科技热点

Node.js中的阻塞与非阻塞I/O机制：性能提升的关键