DeepSeek 的诞生背景
DeepSeek 是由中国的人工智能公司深度求索(DeepSeek)自主研发的大语言模型系列。该公司成立于2023年,总部位于北京,致力于打造高性能、高效率的通用人工智能模型。
创始人与核心团队
DeepSeek 由前字节跳动 AI Lab 高级研究员陈天奇等人联合创立。团队成员多来自国内外顶尖高校和科技企业,在自然语言处理、机器学习、分布式系统等领域拥有深厚积累。
技术特点与创新
DeepSeek 系列模型基于 Transformer 架构,支持超长上下文(如 128K tokens),并引入了多头潜在注意力(MLA)、无辅助损失负载均衡、多Token预测(MTP)等创新机制,显著提升了推理效率与生成质量。
开源与生态建设
DeepSeek 积极推动开源生态,已在 Hugging Face、GitHub 等平台发布多个版本的模型权重和训练代码,涵盖从 1.3B 到 67B 参数规模,支持中英文等多种语言。