技术博客

DeepSeek-V3:6710亿参数的语言模型如何引领AI新纪元

2024年12月26日,DeepSeek AI正式发布其最新的大型语言模型DeepSeek-V3。该模型采用6710亿参数的MoE(Mixture of Experts)架构,处理速度达到每秒60个token,较前代V2版本提升了三倍。DeepSeek-V3不仅支持GPU训练和推理,还特别优化了对昇腾平台的支持,在昇腾硬件和MindSpore推理引擎上实现了高效的推理性能,为用户提供了更灵活的计算硬件选择。

DeepSeek-V36710亿参数昇腾平台高效推理MoE架构
2025-01-03
国产之光:DeepSeek-V3人工智能模型的技术突破与成本优势

DeepSeek-V3是一款引人注目的国产大型人工智能模型,以671B的MoE(Mixture of Experts)架构著称。该模型凭借其相对较低的训练成本——仅558万美元,在全球范围内迅速获得认可。DeepSeek-V3-Base版本在多个基准测试中超越了前代产品DeepSeek-V2-Base和Qwen2.5 72B Base,并且在多数情况下也超过了LLaMA-3.1 405B Base,成为当前最强大的开源模型之一。

DeepSeek-V3人工智能MoE架构训练成本开源模型
2024-12-27
中国人工智能再创辉煌:DeepSeek-V3模型引领行业新篇章

中国在人工智能领域取得重大突破,DeepSeek-V3模型凭借671B参数量,在数学和代码性能上与国际先进模型Claude 3.5 Sonnet相媲美。尤为值得一提的是,其训练成本仅为600万美元,远低于同类模型。这一成果不仅标志着中国团队在大模型领域的胜利,更展现了中国在全球人工智能竞赛中的强大竞争力。

MoE技术DeepSeek-V3数学性能训练成本人工智能
2024-12-27
DeepSeek-V3:引领语言模型新纪元的技术突破

DeepSeek AI公司近日宣布其最新大型语言模型DeepSeek-V3正式发布。相较于前代V2版本,DeepSeek-V3在性能上实现了显著提升,处理速度达到每秒60个token,是V2版本的三倍。此外,DeepSeek-V3的研发投入高达557.6万美金,超越了Claude 3.5 Sonnet,成为一项令人瞩目的技术突破。这一新版本不仅提升了处理速度,更标志着公司在AI技术研发上的重要进展。

DeepSeek-V3语言模型性能提升处理速度研发投入
2024-12-27
DeepSeek-V3-Base:引领开源AI模型的编程革命

DeepSeek-V3-Base 是一款开源的人工智能模型,其编程能力相较于前代提升了近31%。该模型采用了具有685B参数的混合专家(MoE)架构,包含256个专家网络。在处理任务时,它通过sigmoid函数进行路由决策,每次从256个专家中选择前8个(topk=8)来共同处理输入数据。这种创新的设计使得DeepSeek-V3-Base在复杂任务处理上表现出色,为开发者提供了强大的工具。

DeepSeek-V3开源模型编程能力混合专家路由决策
2024-12-26
上一页