技术博客

Qwen3家族训练秘籍揭秘:大模型蒸馏与小模型性能提升之道

Qwen3家族的训练秘籍近日被公开,展示了如何将思考与非思考过程融合进单一模型中。通过大模型蒸馏技术,Qwen3显著提升了小模型性能。该系列包含6个密集模型,参数量从0.6亿至32亿不等,另有2个MoE模型,总参数量分别为30亿和235亿,激活时参数量为3亿和22亿。这一创新为模型优化提供了新思路。

Qwen3家族大模型蒸馏非思考过程MoE模型参数量
2025-05-14
Qwen3模型:开启开源领域新纪元

Qwen3模型以235B的参数量和混合推理技术,成为开源领域的全新领导者。作为国内首个实现全面开源的系列模型,Qwen3包含8个子模型,标志着从单一模型向智能体转变的加速进程。这一突破不仅体现了参数规模的增长,更代表了智能技术边界的扩展,为未来的技术革新奠定了坚实基础。

Qwen3模型开源领域混合推理参数量智能技术
2025-04-29
人工智能梦想与现实:通用智能之路漫漫

清华大学和中国人民大学的最新研究表明,实现真正的人工通用智能(AGI)仍需70年时间。研究指出,达到自主级智能所需的参数量为10的26次方,而支持这一智能水平的GPU总价将达苹果市值的4×10的7次方倍。这为当前火热的人工智能领域泼了一盆冷水,揭示了通往AGI道路上的巨大挑战。

人工智能通用智能参数量GPU需求研究预测
2025-03-10
探索大模型的无限可能:神经网络与参数量的新篇章

大模型,即那些参数量超过十亿的神经网络模型,在当今的人工智能领域中扮演着至关重要的角色。这些模型凭借其庞大的参数规模,能够高效处理复杂的任务,如自然语言处理和图像识别等。通过深度学习算法,大模型可以模拟人类大脑的工作机制,对大量数据进行分析与理解,从而实现精准的任务执行。无论是文本生成、语义理解,还是视觉对象检测,大模型都展现出了卓越的能力。

大模型神经网络参数量自然语言图像识别
2025-03-03
深度解析DeepSeek-R1:671B参数规模的深度学习模型架构探究

DeepSeek-R1(DeepSeek-V3)是一款先进的深度学习模型,其复杂性体现在庞大的模型架构中。该模型拥有671B个参数,这一数量级的参数量使其在处理任务时具有极高的灵活性和精确度。值得注意的是,在运行过程中,每个标记能够激活37B个参数,这确保了模型对不同输入有着敏锐且精准的响应能力,从而为深度学习领域带来了新的突破。

深度学习模型架构参数量标记激活DeepSeek
2025-02-19
开源AI视频模型的崛起:腾讯Hunyuan-Large的创新与突破

腾讯公司近日发布了一款名为Hunyuan-Large的开源AI视频模型,该模型拥有130亿参数,其性能与闭源模型相媲美,甚至在某些方面超越了Runway Gen-3和Luma 1.6。为了更好地适应用户提供的不同风格和长度的提示,腾讯团队对Hunyuan-Large模型进行了微调,开发了一个提示重写模型,该模型能够将用户的原始提示转换成模型更偏好的格式,从而提高处理效率和准确性。

开源AI视频模型参数量提示重写腾讯
2024-12-04
深度神经网络在计算机视觉处理中的应用解析

在深度学习领域,特别是在计算机视觉和自然语言处理等任务中,深度神经网络(DNN)因其庞大的参数量而闻名。这些模型通过多层次的抽象表示,能够捕捉数据中的复杂模式,从而在各种任务中取得卓越的性能。然而,庞大的参数量也带来了计算资源和训练时间的挑战,研究者们不断探索优化方法以提高效率。

深度学习神经网络参数量计算机视觉处理
2024-12-02
AI发展遭遇瓶颈:规模法则与量化技术的临界点

在AI领域中,关于规模法则(Scaling Law)和量化技术的发展是否已达到瓶颈的问题,引起了广泛关注。多位AI领域的专家对此表示认同。为了验证这一预测的准确性,研究人员对超过465次的预训练实验数据进行了分析和拟合,并在参数量高达1.7亿、训练过程中处理了高达260亿个token的模型上进行了验证。研究结果表明,尽管这些技术在某些方面取得了显著进展,但确实面临一些难以克服的挑战。

AI瓶颈规模法则预训练参数量token
2024-11-13
深入浅出GPT-J:解析60亿参数的自然语言处理巨兽

本文将介绍GPT-J这一基于GPT-3架构的人工智能模型,其拥有大约60亿个参数,专为处理自然语言设计。通过在包含800GB数据的开源文本集上进行训练,GPT-J旨在实现与GPT-3相近的性能表现。文中还将提供丰富的代码示例,以便读者更好地理解和应用这一技术。

GPT-J自然语言参数量数据集代码示例
2024-10-08