DeepSeek是怎么练成的？万字解析成长史

站长云网 2025-02-03 站长云网

这几天，DeepSeek全球爆火，但由于这家公司过于低调，未有宣发，使得大众对这家极具潜力的科技企业知之甚少——无论是其创立背景、业务范围，还是产品布局。在整理完所有材料后，我便撰写了此篇江湖录：目前的AI玩家，是怎样的背景，在卷那些事儿，以及在招哪些人

以后硬核创新会越来越多。现在可能还不容易被理解，是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就，群体性想法就会改变。我们只是还需要一堆事实和一个过程。——DeepSeek创始人梁文锋

本篇是江湖录的第二篇，也可能是有关DeepSeek的最全的历史过往。

本文所有DeepSeek相关图片，除非备注，均源自官方发布渠道及其应用程序截图。特别鸣谢“暗涌”发布的两篇对梁文锋先生的深度访谈，其中的真知灼见为本文提供了宝贵的研究素材。

去年此时，幻方量化的朋友找到我，问：“要不要在国内做大模型？”而我，只单纯的喝了半下午的咖啡。果然，人生还是看选择的。

这里所提的幻方量化，便是DeepSeek的出资方，或者说母体。

所谓量化，便是不由人力，而用算法来进行决策的投资机构。幻方量化的成立时间不算长，起步于2015年。到了2021年，时年六岁的幻方量化，其资产管理规模便已突破千亿，被誉为中国“量化四大天王”之一。

幻方的创始人梁文锋，也正是日后DeepSeek的创立者，是个“非主流”的80后金融领导者：他没有海外留学经历，也不是奥林匹克竞赛获奖者，毕业于浙江大学电子工程系人工智能专业，土生土长的技术专家，行事低调，每天“看论文，写代码，参与小组讨论”。

梁文锋的身上没有传统企业老板的习气，更像一位纯粹的“技术极客”。多位业内人士和DeepSeek的研究员，给了梁文锋极高的评价：“兼具强大的infra工程能力和模型研究能力，又能调动资源”、“既可以从高处做精准判断，又可以在细节上强过一线研究员”的人，同时有着“令人恐怖的学习能力”。

早在成立DeepSeek之前，幻方便已开始在AI行业进行了长远布局。2023年5月，梁文锋在接受暗涌采访时提到：“2020年OpenAI发布GPT3后，人工智能发展的方向已经非常清晰，算力将成为关键要素；但即便2021年，我们投入建设萤火二号时，大部分人还是无法理解”。

基于这一判断，幻方开始构建起自己的算力基建。“从最早的1张卡，到2015年的100张卡、2019年的1000张卡，再到一万张，这个过程是逐步发生的。几百张卡之前，我们托管在IDC，规模再变大时，托管就没法满足要求了，就开始自建机房。”

之后，《财经十一人》报道，“国内拥有超过1万枚GPU的企业不超过5家，而除几家头部大厂外，还包括一家名为幻方的量化基金公司”。而通常认为，1万枚英伟达A100芯片是做自训大模型的算力门槛。

梁文锋在之前的采访中，还提到了一个很有趣的点：很多人会以为这里边有一个不为人知的商业逻辑，但其实，主要是好奇心驱动。

DeepSeek初见

在2023年5月接受暗涌采访时，当被问及“前不久，幻方发公告决定下场做大模型，一家量化基金为什么要做这样一件事？”

梁文锋的回答掷地有声：“我们做大模型，其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。幻方的主要班底里，很多人是做人工智能的。当时我们尝试了很多场景，最终切入了足够复杂的金融，而通用人工智能可能是下一个最难的事之一，所以对我们来说，这是一个怎么做的问题，而不是为什么做的问题。“

并非出于商业利益驱动，也非追逐市场风口，单单只是对AGI技术本身的探索渴望，以及对“最重要、最困难的事”的执着追求，“深度求索”这一名称在2023年5月已被正式确认。2023年7月17日，“杭州深度求索人工智能基础技术研究有限公司”注册成立。

2023年11月2日，DeepSeek交来了首篇答卷：DeepSeekCoder代码大模型开源发布。这个模型包括1B，7B，33B多种尺寸，开源内容包含Base模型和指令调优模型。

在当时，在开源模型中，Meta的CodeLlama是业内标杆。而DeepSeekCoder一经发布，比起CodeLlama，便展示出多方位领先的架势：在代码生成上，HumanEval领先9.3%、MBPP领先10.8，DS-1000领先5.9%。

要知道，DeepSeekCoder是7B模型，而CodeLlama却是34B。另外，经过指令调优后的DeepSeekCoder模型更是全面超越了GPT3.5-Turbo。

不仅在代码生成上可圈可点，DeepSeekCoder也在数学和推理上秀了一波肌肉。

3日后，也就是2023年11月5日，DeepSeek通过其微信公众号，连续发布了大量招聘内容，岗位包括：AGI大模型实习生、数据百晓生、数据架构人才、高级数据采集工程师、深度学习研发工程师等招聘信息，开始积极扩充团队规模。

正如梁文锋所言，DeepSeek在人才招聘上“必卡的条件”是“热爱，扎实的基础能力”，并且强调“创新需要尽可能少的干预和管理，让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的，不是刻意安排的，更不是教出来的。”

模型频发，践行开源

在DeepSeekCoder一鸣惊人之后，DeepSeek将目光投向主战场：通用大模型。

2023年11月29日，DeepSeek发布了其首款通用大语言模型DeepSeekLLM67B。这款模型对标的是Meta的同级别模型LLaMA270B，并在近20个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力（如：HumanEval、MATH、CEval、CMMLU）。

DeepSeekLLM67B同样选择了开源路线，并支持商用。为了进一步彰显其开源的诚意和决心，DeepSeek史无前例地同步开源了7B和67B两种不同规模的模型，甚至将模型训练过程中产生的9个checkpoints也一并公开，供研究人员下载使用。这种近乎“倾囊相授”的操作，在整个开源社区都极为罕见。

为了更全面、更客观地评估DeepSeekLLM67B的真实能力，DeepSeek的研究团队还精心设计了一系列“新题”进行“压力测试”，这些题目涵盖了匈牙利高中数学考试题、Google指令跟随评测集、LeetCode周赛题等高难度、高区分度的测试。测试结果令人振奋，DeepSeekLLM67B在样本外泛化能力方面表现出了惊人的潜力，其综合性能甚至直逼当时最先进的GPT-4模型。

2023年12月18日，DeepSeek开源了文生3D模型DreamCraft3D：可从一句话生成高质量的三维模型，实现了AIGC从2D平面到3D立体空间的跨越。比如，用户输入：“奔跑在树林中，搞笑的猪头和孙悟空身体的混合形像”，DreamCraft3D便可以输出高质量的内容：

从原理上来说，这个模型先完成了文生图，然后再根据2D概念图，脑补出整体的几何结构：

在之后的主观评比中，相较于之前的生成方法，超过90%的用户表示DreamCraft3D的生成质量更具优势。

生成质量用户主观评价

2024年1月7日，DeepSeek发布了DeepSeekLLM67B技术报告。这份报告有40+页，内容包含了DeepSeekLLM67B的多项细节，包括自建ScalingLaws、完整的模型对齐实践细节、以及全方位的AGI能力评估体系等等。

报告地址：https://arxiv.org/abs/2401.02954

2024年1月11日，DeepSeek开源了国内首个MoE（混合专家架构）大模型DeepSeekMoE：全新架构，支持中英，免费商用。MoE架构在当时被普遍认为是OpenAIGPT-4性能突破的关键所在，而DeepSeek自研的MoE架构，在2B、16B、145B等多个尺度上均领先，同时其计算成本也非常值得称道。

2024年1月25日，DeepSeek发布了DeepSeekCoder技术报告。这份报告对其训练数据、训练方法、以及模型效果进行了全面的技术剖析。在这份报告中，我们可以发现其首次构建了仓库级代码数据，并用拓扑排序解析文件之间依赖，显著增强了长距离跨文件的理解能力。而在训练方法上，增加了Fill-In-Middle方法，大幅提升了代码补全的能力。

报告地址：https://arxiv.org/abs/2401.14196

2024年1月30日，DeepSeek开放平台正式上线，DeepSeek大模型API服务启动测试。注册即送1000万token，接口兼容OpenAIAPI接口，有Chat/Coder双模型可用。此时，DeepSeek开始在技术研发之外，开始探寻技术服务商的道路。

2024年2月5日，DeepSeek发布了又一款垂直领域模型——数学推理模型DeepSeekMath。这款仅有7B参数的模型，却在数学推理能力上直逼GPT-4，在权威的MATH基准榜单上，力压群雄，超越了一众参数规模在30B-70B之间的开源模型。DeepSeekMath的问世，充分展现了DeepSeek在垂直领域模型研发上的技术实力和前瞻布局。

2024年2月28日，为进一步扫除开发者使用DeepSeek开源模型的顾虑，DeepSeek发布了开源政策FAQ，对模型开源许可、商业使用限制等常见问题进行了详细解答，以更透明、更开放的姿态拥抱开源：

2024年3月11日，DeepSeek开源发布了多模态大模型DeepSeek-VL。这是DeepSeek在多模态AI技术上的初步尝试，尺寸为7B与1.3B，模型和技术论文同步开源。

2024年3月20日，幻方AI&DeepSeek再次受邀参加NVIDIAGTC2024大会，创始人梁文锋发表了题为《和而不同：大语言模型价值观对齐解耦化》的技术主题演讲。探讨了如”单一价值观的大模型与多元社会文化之间的冲突“，“大模型价值观对齐解耦化”，“解耦化价值观对齐的多维度挑战”等问题。展现了DeepSeek在技术研发之外，对AI发展的人文关怀和社会责任的思考。

2024年3月，DeepSeekAPI正式推出付费服务，彻底引爆了中国大模型市场的价格战的序幕：每百万输入Tokens1元，每百万输出Tokens2元。

2024年，DeepSeek顺利通过中国大模型备案，为其API服务的全面开放扫清了政策障碍。　

2024年5月，DeepSeek-V2通用MoE大模型的开源发布，价格战正式打响。DeepSeek-V2使用了MLA（多头潜在注意力机制），将模型的显存占用率降低至传统MHA的5%-13%，同时，也独辟蹊径地研发了DeepSeekMoESparse稀疏结构，将模型的计算量大大压缩。凭借于此，而这个模型保持着以“1元/百万输入，2元/百万输出”的API价格。

DeepSeek的影响力非常大。对此，SemiAnalysis首席分析师认为，DeepSeekV2论文“可能是今年最好的一篇”。同样的，OpenAI前员工AndrewCarr则认为论文“充满惊人智慧”，并将其训练设置应用于自己的模型。

需知：这是一个对标GPT-4-Turbo的模型，而API价格只有后者的1/70

2024年6月17日，DeepSeek再度发力，开源发布了DeepSeekCoderV2代码大模型，并宣称其代码能力超越了当时最先进的闭源模型GPT-4-Turbo。DeepSeekCoderV2延续了DeepSeek一贯的开源策略，模型、代码、论文全部开源，并提供了236B和16B两种版本。DeepSeekCoderV2的API服务也同步上线，价格依旧是“1元/百万输入，2元/百万输出”。

2024年6月21日，DeepSeekCoder支持代码在线执行。在同一天，先是Claude3.5Sonnet发布，并上新Artifacts功能，自动生成代码并直接在浏览器上运行。同一天的，DeepSeek官网的代码助手也上线了同样的功能：生成代码，一键运行。

回顾一下这段时间的大事记：

持续突破，全球瞩目

2024年5月，DeepSeek通过MoE开源模型DeepSeekV2，一战成名：对标GPT-4-Turbo的性能，但价格只要1块钱/百万输入，这是GPT-4-Turbo的1/70。那时，DeepSeek成了业内知名的“价格屠夫”，进而，智谱、字节、阿里...等主流玩家迅速跟进，纷纷降价。也是那时，适逢又一轮GPT封号潮，大批AI应用，开始初尝国内模型。

在2024年七月，DeepSeek创始人梁文锋，再次接受暗涌的报道，对于这次价格战进行了正面回应：“非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事，然后核算成本定价。我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。”

可见，与众多牌桌选手掏钱做补贴不同的是，DeepSeek在这个定价下，是有利润的。

有人会说：降价很像在抢用户，互联网时代的价格战通常如此

对此，梁文锋也回应到：“抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中，成本先降下来了，另一方面也觉得无论API，还是AI，都应该是普惠的、人人可以用得起的东西。”

那么，故事也就由着梁文锋的理想主义，继续展开。

2024年7月4日，DeepSeekAPI上线128K上下文价格不变。模型的推理成本，与上下文长度密切相关。所以很多模型，对于这个长度，限制严苛：初版GPT-3.5只有4k的上下文。

而此时，DeepSeek在保持价格不变的前提下（每百万输入Tokens1元，每百万输出Tokens2元），将上下文长度，从之前的32k提升到了128k。

2024年7月10日，全球首届AI奥数竞赛（AIMO）结果揭晓，DeepSeekMath模型成为了Top团队的共同选择，获奖的Top4团队不约而同地选择了DeepSeekMath-7B作为其参赛模型的基础，并在竞赛中取得了令人瞩目的成绩。

2024年7月18日，在“全球大模型竞技场”（ChatbotArena）榜单上，DeepSeek-V2荣登开源模型榜首，超越了Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B等一众明星模型，成为开源大模型的新标杆。

2024年7月，DeepSeek持续广纳贤才，面向全球招募AI算法、AIInfra、AITutor、AI产品等多个方向的顶尖人才，为未来的技术创新和产品发展储备力量。

2024年7月26日，DeepSeekAPI迎来重要升级，全面支持续写、FIM（Fill-in-the-Middle）补全、FunctionCalling、JSONOutput等一系列高级功能。其中的FIM功能非常有趣，即：用户给出开头和结尾，大模型来填补中间的，非常适合编程的过程中，填充准确函数代码。以撰写斐波那契数列为例：

2024年8月2日，DeepSeek创新性地引入了硬盘缓存技术，使得API价格斩向脚踝。之前API价格，每百万token只需1元。而现在，一旦命中缓存，API费用直接降至0.1元。

这个功能，在连续对话，以及批量处理任务时，非常实用。

2024年8月16日，DeepSeek开源发布了其数学定理证明模型DeepSeek-Prover-V1.5，这款模型在高中和大学数学定理证明测试中，均超越了多款知名的开源模型。

2024年9月6日，DeepSeek开源发布了DeepSeek-V2.5融合模型。之前，DeepSeek主要提供的是款模型：Chat模型聚焦通用对话能力，Code模型聚焦代码处理能力。而这次，两款模型合二为一，升级成了DeepSeek-V2.5，更好的对齐了人类偏好，并还在写作任务、指令跟随等方面实现了显著提升。

2024年9月18日，在LMSYS最新榜单上，DeepSeek-V2.5再次上榜，并领跑国内模型，在多个单项能力上，也都刷新了国内模型的最好成绩。

2024年11月20日，DeepSeek在官网上线了DeepSeek-R1-Lite，这是一款推理模型，媲美o1-preview，也为之后V3的后训练，提供了足量的合成数据。

2024年12月10日，DeepSeekV2系列迎来收官之作——DeepSeek-V2.5-1210最终微调版发布。该版本通过后训练，全面提升了包括数学、代码、写作、角色扮演等在内的多方能力。

DeepSeek的网页APP也随着此版本的到来，开放了联网搜索功能。

2024年12月13日，DeepSeek在多模态领域再次发力，开源发布了多模态大模型DeepSeek-VL2。DeepSeek-VL2采用了MoE架构，视觉能力得到了显著提升，有3B、16B和27B三种尺寸，在各项指标上极具优势。

2024年12月26日，DeepSeek-V3开源发布：训练成本估算只有550万美金。DeepSeek-V3在性能上全面对标海外领军闭源模型，生成速度也大幅提升。

API服务定价进行了调整，但同时为新模型设置了长达45天的优惠体验期。

这里有一份来自“赛博禅心”的详实解读：DeepSeek-V3是怎么训练的｜深度拆解

2025年1月15日，DeepSeek官方App正式发布，并在iOS/Android各大应用市场全面上线。

2025年1月20日，临近春节，DeepSeek-R1推理模型正式发布并开源。DeepSeek-R1在性能上全面对齐OpenAIo1正式版，并开放了思维链输出功能。与此同时，DeepSeek还宣布将模型开源License统一变更为MIT许可证，并明确用户协议允许“模型蒸馏”，进一步拥抱开源，促进技术共享。

当日，“赛博禅心”便提供了一份详实解读：DeepSeek-R1是怎么训练的｜深度拆解

后面，这个模型大火，开创了时代：

DeepSeek完全指南：这到底是怎样的存在？

于是，截止到了2025年1月27日，DeepSeekApp成功超越ChatGPT，登顶美国iOS应用商店免费应用下载榜首，成为了现象级的AI应用。　

2025年1月27日，除夕凌晨1点，DeepSeekJanus-Pro开源发布。这是一个多模态模型，名称来源于古罗马神话中的双面神“雅努斯”（Janus）：它同时面向过去与未来。这也代表了模型的两种能力——既要进行视觉理解，又要进行图像生成，并在多个排行中霸榜。

DeepSeek的爆火，旋即引发了全球科技震动，甚至直接导致了NVIDIA股价暴跌18%，全球科技股市市值蒸发了约1万亿美元。华尔街和科技媒体纷纷惊呼，DeepSeek的崛起，正在颠覆全球AI产业格局，对美国科技巨头构成了前所未有的挑战。

除夕之夜，美股上演了一出中国红

DeepSeek的成功，也引发了国际社会对中国AI技术创新能力的高度关注和热烈讨论。美国总统特朗普罕见地公开赞扬DeepSeek的崛起是“积极的”，并认为这是一个给美国敲响的“警钟”。微软CEOSatyaNadella和OpenAICEOSamAltman也对DeepSeek表示赞赏，称其技术“非常令人印象深刻”。

当然，我们也要知道，他们的赞扬一方面是对DeepSeek实力的认可，另一方面则是各有心思磨刀霍霍，比如Anthropic一遍认可着DeepSeek的成绩，一边号召美国政府加强对华芯片管制。

AnthropicCEO发万字檄文：DeepSeek崛起，白宫应加码管制

总结与展望

回顾DeepSeek的这两年，真所谓一部“中国式奇迹”：从名不见经传的创业公司，到如今在全球AI舞台上大放异彩的“东方神秘力量”，DeepSeek用实力和创新，书写了一个又一个“不可能”。

这场技术远征的深层意义，早已超越商业竞争的范畴。DeepSeek用事实宣告：在人工智能这个关乎未来的战略领域，中国企业完全有能力攀登核心技术高地。

特朗普口中的"警钟"，Anthropic暗藏的忌惮，恰恰印证了中国AI力量的不可忽视：不仅能乘风破浪，更在重塑潮水的方向

产品发布大事记

2023年11月2日:DeepSeekCoder代码大模型

2023年11月29日:DeepSeekLLM67B通用模型

2023年12月18日:DreamCraft3D文生3D模型

2024年1月11日:DeepSeekMoEMoE大模型

2024年2月5日:DeepSeekMath数学推理模型

2024年3月11日:DeepSeek-VL多模态大模型

2024年5月:DeepSeek-V2MoE通用大模型

2024年6月17日:DeepSeekCoderV2代码大模型

2024年9月6日:DeepSeek-V2.5融合通用与代码能力模型

2024年12月13日:DeepSeek-VL2多模态MoE大模型

2024年12月26日:DeepSeek-V3全新系列通用大模型

2025年1月20日:DeepSeek-R1推理模型

2025年1月20日:DeepSeek官方App(iOS&Android)

2025年1月27日:DeepSeekJanus-Pro多模态模型

职业机会

截止到2025年2月2日，DeepSeek有以下岗位在招，看看是否会与你有缘。

简历投递：[email protected]

你可以说是看到赛博禅心的招聘信息而来的，毕竟咱公众号的读者本就都很硬核。

但这并没什么用，DeepSeek挑人，还是更看价值观和技术。

责任编辑：站长云网

上篇：中科院在太空成功验证第三代半导体材料制造的功率器件

下篇：台积电1nm制程新厂传将落脚台南沙仑

顶一下[0]

踩一下[0]