DeepSeek是怎么练成的?万字解析成长史

站长云网 2025-02-03 站长云网

这几天,DeepSeek全球爆火,但由于这家公司过于低调,未有宣发,使得大众对这家极具潜力的科技企业知之甚少——无论是其创立背景、业务范围,还是产品布局。在整理完所有材料后,我便撰写了此篇江湖录目前的AI玩家,是怎样的背景,在卷那些事儿,以及在招哪些人

以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。——DeepSeek创始人梁文锋

本篇是江湖录的第二篇,也可能是有关DeepSeek的最全的历史过往。

本文所有DeepSeek相关图片,除非备注,均源自官方发布渠道及其应用程序截图。特别鸣谢“暗涌”发布的两篇对梁文锋先生的深度访谈,其中的真知灼见为本文提供了宝贵的研究素材。

去年此时,幻方量化的朋友找到我,问:“要不要在国内做大模型?”而我,只单纯的喝了半下午的咖啡。果然,人生还是看选择的。

这里所提的幻方量化,便是DeepSeek的出资方,或者说母体。


所谓量化,便是不由人力,而用算法来进行决策的投资机构。幻方量化的成立时间不算长,起步于2015年。到了2021年,时年六岁的幻方量化,其资产管理规模便已突破千亿,被誉为中国“量化四大天王”之一。

幻方的创始人梁文锋,也正是日后DeepSeek的创立者,是个“非主流”的80后金融领导者:他没有海外留学经历,也不是奥林匹克竞赛获奖者,毕业于浙江大学电子工程系人工智能专业,土生土长的技术专家,行事低调,每天“看论文,写代码,参与小组讨论”。

梁文锋的身上没有传统企业老板的习气,更像一位纯粹的“技术极客”。多位业内人士和DeepSeek的研究员,给了梁文锋极高的评价:“兼具强大的infra工程能力和模型研究能力,又能调动资源”、“既可以从高处做精准判断,又可以在细节上强过一线研究员”的人,同时有着“令人恐怖的学习能力”。

早在成立DeepSeek之前,幻方便已开始在AI行业进行了长远布局。2023年5月,梁文锋在接受暗涌采访时提到:“2020年OpenAI发布GPT3后,人工智能发展的方向已经非常清晰,算力将成为关键要素;但即便2021年,我们投入建设萤火二号时,大部分人还是无法理解”。

基于这一判断,幻方开始构建起自己的算力基建。“从最早的1张卡,到2015年的100张卡、2019年的1000张卡,再到一万张,这个过程是逐步发生的。几百张卡之前,我们托管在IDC,规模再变大时,托管就没法满足要求了,就开始自建机房。”

之后,《财经十一人》报道,“国内拥有超过1万枚GPU的企业不超过5家,而除几家头部大厂外,还包括一家名为幻方的量化基金公司”。而通常认为,1万枚英伟达A100芯片是做自训大模型的算力门槛。

梁文锋在之前的采访中,还提到了一个很有趣的点:很多人会以为这里边有一个不为人知的商业逻辑,但其实,主要是好奇心驱动。

DeepSeek初见

在2023年5月接受暗涌采访时,当被问及“前不久,幻方发公告决定下场做大模型,一家量化基金为什么要做这样一件事?”

梁文锋的回答掷地有声:“我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。“

并非出于商业利益驱动,也非追逐市场风口,单单只是对AGI技术本身的探索渴望,以及对“最重要、最困难的事”的执着追求,“深度求索”这一名称在2023年5月已被正式确认。2023年7月17日,“杭州深度求索人工智能基础技术研究有限公司”注册成立。

2023年11月2日,DeepSeek交来了首篇答卷:DeepSeekCoder代码大模型开源发布。这个模型包括1B,7B,33B多种尺寸,开源内容包含Base模型和指令调优模型。


在当时,在开源模型中,Meta的CodeLlama是业内标杆。而DeepSeekCoder一经发布,比起CodeLlama,便展示出多方位领先的架势:在代码生成上,HumanEval领先9.3%、MBPP领先10.8,DS-1000领先5.9%。

要知道,DeepSeekCoder是7B模型,而CodeLlama却是34B。另外,经过指令调优后的DeepSeekCoder模型更是全面超越了GPT3.5-Turbo。


不仅在代码生成上可圈可点,DeepSeekCoder也在数学和推理上秀了一波肌肉。


3日后,也就是2023年11月5日,DeepSeek通过其微信公众号,连续发布了大量招聘内容,岗位包括:AGI大模型实习生、数据百晓生、数据架构人才、高级数据采集工程师、深度学习研发工程师等招聘信息,开始积极扩充团队规模。

正如梁文锋所言,DeepSeek在人才招聘上“必卡的条件”是“热爱,扎实的基础能力”,并且强调“创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。”

模型频发,践行开源

在DeepSeekCoder一鸣惊人之后,DeepSeek将目光投向主战场:通用大模型。

2023年11月29日,DeepSeek发布了其首款通用大语言模型DeepSeekLLM67B。这款模型对标的是Meta的同级别模型LLaMA270B,并在近20个中英文的公开评测榜单上表现更佳。尤其突出的是推理、数学、编程等能力(如:HumanEval、MATH、CEval、CMMLU)。


DeepSeekLLM67B同样选择了开源路线,并支持商用。为了进一步彰显其开源的诚意和决心,DeepSeek史无前例地同步开源了7B和67B两种不同规模的模型,甚至将模型训练过程中产生的9个checkpoints也一并公开,供研究人员下载使用。这种近乎“倾囊相授”的操作,在整个开源社区都极为罕见。

为了更全面、更客观地评估DeepSeekLLM67B的真实能力,DeepSeek的研究团队还精心设计了一系列“新题”进行“压力测试”,这些题目涵盖了匈牙利高中数学考试题、Google指令跟随评测集、LeetCode周赛题等高难度、高区分度的测试。测试结果令人振奋,DeepSeekLLM67B在样本外泛化能力方面表现出了惊人的潜力,其综合性能甚至直逼当时最先进的GPT-4模型。


2023年12月18日,DeepSeek开源了文生3D模型DreamCraft3D:可从一句话生成高质量的三维模型,实现了AIGC从2D平面到3D立体空间的跨越。比如,用户输入:“奔跑在树林中,搞笑的猪头和孙悟空身体的混合形像”,DreamCraft3D便可以输出高质量的内容:


从原理上来说,这个模型先完成了文生图,然后再根据2D概念图,脑补出整体的几何结构:


在之后的主观评比中,相较于之前的生成方法,超过90%的用户表示DreamCraft3D的生成质量更具优势。


生成质量用户主观评价

2024年1月7日,DeepSeek发布了DeepSeekLLM67B技术报告。这份报告有40+页,内容包含了DeepSeekLLM67B的多项细节,包括自建ScalingLaws、完整的模型对齐实践细节、以及全方位的AGI能力评估体系等等。

报告地址:https://arxiv.org/abs/2401.02954


2024年1月11日,DeepSeek开源了国内首个MoE(混合专家架构)大模型DeepSeekMoE:全新架构,支持中英,免费商用。MoE架构在当时被普遍认为是OpenAIGPT-4性能突破的关键所在,而DeepSeek自研的MoE架构,在2B、16B、145B等多个尺度上均领先,同时其计算成本也非常值得称道。


2024年1月25日,DeepSeek发布了DeepSeekCoder技术报告。这份报告对其训练数据、训练方法、以及模型效果进行了全面的技术剖析。在这份报告中,我们可以发现其首次构建了仓库级代码数据,并用拓扑排序解析文件之间依赖,显著增强了长距离跨文件的理解能力。而在训练方法上,增加了Fill-In-Middle方法,大幅提升了代码补全的能力。

报告地址:https://arxiv.org/abs/2401.14196


2024年1月30日,DeepSeek开放平台正式上线,DeepSeek大模型API服务启动测试。注册即送1000万token,接口兼容OpenAIAPI接口,有Chat/Coder双模型可用。此时,DeepSeek开始在技术研发之外,开始探寻技术服务商的道路。

2024年2月5日,DeepSeek发布了又一款垂直领域模型——数学推理模型DeepSeekMath。这款仅有7B参数的模型,却在数学推理能力上直逼GPT-4,在权威的MATH基准榜单上,力压群雄,超越了一众参数规模在30B-70B之间的开源模型。DeepSeekMath的问世,充分展现了DeepSeek在垂直领域模型研发上的技术实力和前瞻布局。


2024年2月28日,为进一步扫除开发者使用DeepSeek开源模型的顾虑,DeepSeek发布了开源政策FAQ,对模型开源许可、商业使用限制等常见问题进行了详细解答,以更透明、更开放的姿态拥抱开源:


2024年3月11日,DeepSeek开源发布了多模态大模型DeepSeek-VL。这是DeepSeek在多模态AI技术上的初步尝试,尺寸为7B与1.3B,模型和技术论文同步开源。


2024年3月20日,幻方AI&DeepSeek再次受邀参加NVIDIAGTC2024大会,创始人梁文锋发表了题为《和而不同:大语言模型价值观对齐解耦化》的技术主题演讲。探讨了如”单一价值观的大模型与多元社会文化之间的冲突“,“大模型价值观对齐解耦化”,“解耦化价值观对齐的多维度挑战”等问题。展现了DeepSeek在技术研发之外,对AI发展的人文关怀和社会责任的思考。

2024年3月,DeepSeekAPI正式推出付费服务,彻底引爆了中国大模型市场的价格战的序幕:每百万输入Tokens1元,每百万输出Tokens2元。


2024年,DeepSeek顺利通过中国大模型备案,为其API服务的全面开放扫清了政策障碍。 

2024年5月,DeepSeek-V2通用MoE大模型的开源发布,价格战正式打响。DeepSeek-V2使用了MLA(多头潜在注意力机制),将模型的显存占用率降低至传统MHA的5%-13%,同时,也独辟蹊径地研发了DeepSeekMoESparse稀疏结构,将模型的计算量大大压缩。凭借于此,而这个模型保持着以“1元/百万输入,2元/百万输出”的API价格。

DeepSeek的影响力非常大。对此,SemiAnalysis首席分析师认为,DeepSeekV2论文“可能是今年最好的一篇”。同样的,OpenAI前员工AndrewCarr则认为论文“充满惊人智慧”,并将其训练设置应用于自己的模型。

需知:这是一个对标GPT-4-Turbo的模型,而API价格只有后者的1/70


2024年6月17日,DeepSeek再度发力,开源发布了DeepSeekCoderV2代码大模型,并宣称其代码能力超越了当时最先进的闭源模型GPT-4-Turbo。DeepSeekCoderV2延续了DeepSeek一贯的开源策略,模型、代码、论文全部开源,并提供了236B和16B两种版本。DeepSeekCoderV2的API服务也同步上线,价格依旧是“1元/百万输入,2元/百万输出”。


2024年6月21日,DeepSeekCoder支持代码在线执行。在同一天,先是Claude3.5Sonnet发布,并上新Artifacts功能,自动生成代码并直接在浏览器上运行。同一天的,DeepSeek官网的代码助手也上线了同样的功能:生成代码,一键运行。


回顾一下这段时间的大事记:


持续突破,全球瞩目

2024年5月,DeepSeek通过MoE开源模型DeepSeekV2,一战成名:对标GPT-4-Turbo的性能,但价格只要1块钱/百万输入,这是GPT-4-Turbo的1/70。那时,DeepSeek成了业内知名的“价格屠夫”,进而,智谱、字节、阿里...等主流玩家迅速跟进,纷纷降价。也是那时,适逢又一轮GPT封号潮,大批AI应用,开始初尝国内模型。

在2024年七月,DeepSeek创始人梁文锋,再次接受暗涌的报道,对于这次价格战进行了正面回应:“非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”

可见,与众多牌桌选手掏钱做补贴不同的是,DeepSeek在这个定价下,是有利润的。

有人会说:降价很像在抢用户,互联网时代的价格战通常如此

对此,梁文锋也回应到:“抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。”

那么,故事也就由着梁文锋的理想主义,继续展开。

2024年7月4日,DeepSeekAPI上线128K上下文价格不变。模型的推理成本,与上下文长度密切相关。所以很多模型,对于这个长度,限制严苛:初版GPT-3.5只有4k的上下文。

而此时,DeepSeek在保持价格不变的前提下(每百万输入Tokens1元,每百万输出Tokens2元),将上下文长度,从之前的32k提升到了128k。


2024年7月10日,全球首届AI奥数竞赛(AIMO)结果揭晓,DeepSeekMath模型成为了Top团队的共同选择,获奖的Top4团队不约而同地选择了DeepSeekMath-7B作为其参赛模型的基础,并在竞赛中取得了令人瞩目的成绩。


2024年7月18日,在“全球大模型竞技场”(ChatbotArena)榜单上,DeepSeek-V2荣登开源模型榜首,超越了Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B等一众明星模型,成为开源大模型的新标杆。


2024年7月,DeepSeek持续广纳贤才,面向全球招募AI算法、AIInfra、AITutor、AI产品等多个方向的顶尖人才,为未来的技术创新和产品发展储备力量。

2024年7月26日,DeepSeekAPI迎来重要升级,全面支持续写、FIM(Fill-in-the-Middle)补全、FunctionCalling、JSONOutput等一系列高级功能。其中的FIM功能非常有趣,即:用户给出开头和结尾,大模型来填补中间的,非常适合编程的过程中,填充准确函数代码。以撰写斐波那契数列为例:


2024年8月2日,DeepSeek创新性地引入了硬盘缓存技术,使得API价格斩向脚踝。之前API价格,每百万token只需1元。而现在,一旦命中缓存,API费用直接降至0.1元。


这个功能,在连续对话,以及批量处理任务时,非常实用。



2024年8月16日,DeepSeek开源发布了其数学定理证明模型DeepSeek-Prover-V1.5,这款模型在高中和大学数学定理证明测试中,均超越了多款知名的开源模型。


2024年9月6日,DeepSeek开源发布了DeepSeek-V2.5融合模型。之前,DeepSeek主要提供的是款模型:Chat模型聚焦通用对话能力,Code模型聚焦代码处理能力。而这次,两款模型合二为一,升级成了DeepSeek-V2.5,更好的对齐了人类偏好,并还在写作任务、指令跟随等方面实现了显著提升。


2024年9月18日,在LMSYS最新榜单上,DeepSeek-V2.5再次上榜,并领跑国内模型,在多个单项能力上,也都刷新了国内模型的最好成绩。


2024年11月20日,DeepSeek在官网上线了DeepSeek-R1-Lite,这是一款推理模型,媲美o1-preview,也为之后V3的后训练,提供了足量的合成数据。


2024年12月10日,DeepSeekV2系列迎来收官之作——DeepSeek-V2.5-1210最终微调版发布。该版本通过后训练,全面提升了包括数学、代码、写作、角色扮演等在内的多方能力。


DeepSeek的网页APP也随着此版本的到来,开放了联网搜索功能。


2024年12月13日,DeepSeek在多模态领域再次发力,开源发布了多模态大模型DeepSeek-VL2。DeepSeek-VL2采用了MoE架构,视觉能力得到了显著提升,有3B、16B和27B三种尺寸,在各项指标上极具优势。


2024年12月26日,DeepSeek-V3开源发布:训练成本估算只有550万美金。DeepSeek-V3在性能上全面对标海外领军闭源模型,生成速度也大幅提升。


API服务定价进行了调整,但同时为新模型设置了长达45天的优惠体验期。



这里有一份来自“赛博禅心”的详实解读:DeepSeek-V3是怎么训练的|深度拆解

2025年1月15日,DeepSeek官方App正式发布,并在iOS/Android各大应用市场全面上线。


2025年1月20日,临近春节,DeepSeek-R1推理模型正式发布并开源。DeepSeek-R1在性能上全面对齐OpenAIo1正式版,并开放了思维链输出功能。与此同时,DeepSeek还宣布将模型开源License统一变更为MIT许可证,并明确用户协议允许“模型蒸馏”,进一步拥抱开源,促进技术共享。

当日,“赛博禅心”便提供了一份详实解读:DeepSeek-R1是怎么训练的|深度拆解

后面,这个模型大火,开创了时代:

DeepSeek完全指南:这到底是怎样的存在?

于是,截止到了2025年1月27日,DeepSeekApp成功超越ChatGPT,登顶美国iOS应用商店免费应用下载榜首,成为了现象级的AI应用。 


2025年1月27日,除夕凌晨1点,DeepSeekJanus-Pro开源发布。这是一个多模态模型,名称来源于古罗马神话中的双面神“雅努斯”(Janus):它同时面向过去与未来。这也代表了模型的两种能力——既要进行视觉理解,又要进行图像生成,并在多个排行中霸榜。


DeepSeek的爆火,旋即引发了全球科技震动,甚至直接导致了NVIDIA股价暴跌18%,全球科技股市市值蒸发了约1万亿美元。华尔街和科技媒体纷纷惊呼,DeepSeek的崛起,正在颠覆全球AI产业格局,对美国科技巨头构成了前所未有的挑战。


除夕之夜,美股上演了一出中国红

DeepSeek的成功,也引发了国际社会对中国AI技术创新能力的高度关注和热烈讨论。美国总统特朗普罕见地公开赞扬DeepSeek的崛起是“积极的”,并认为这是一个给美国敲响的“警钟”。微软CEOSatyaNadella和OpenAICEOSamAltman也对DeepSeek表示赞赏,称其技术“非常令人印象深刻”。

当然,我们也要知道,他们的赞扬一方面是对DeepSeek实力的认可,另一方面则是各有心思磨刀霍霍,比如Anthropic一遍认可着DeepSeek的成绩,一边号召美国政府加强对华芯片管制。


AnthropicCEO发万字檄文:DeepSeek崛起,白宫应加码管制

总结与展望

回顾DeepSeek的这两年,真所谓一部“中国式奇迹”:从名不见经传的创业公司,到如今在全球AI舞台上大放异彩的“东方神秘力量”,DeepSeek用实力和创新,书写了一个又一个“不可能”。

这场技术远征的深层意义,早已超越商业竞争的范畴。DeepSeek用事实宣告:在人工智能这个关乎未来的战略领域,中国企业完全有能力攀登核心技术高地。

特朗普口中的"警钟",Anthropic暗藏的忌惮,恰恰印证了中国AI力量的不可忽视:不仅能乘风破浪,更在重塑潮水的方向

产品发布大事记

2023年11月2日:DeepSeekCoder代码大模型

2023年11月29日:DeepSeekLLM67B通用模型

2023年12月18日:DreamCraft3D文生3D模型

2024年1月11日:DeepSeekMoEMoE大模型

2024年2月5日:DeepSeekMath数学推理模型

2024年3月11日:DeepSeek-VL多模态大模型

2024年5月:DeepSeek-V2MoE通用大模型

2024年6月17日:DeepSeekCoderV2代码大模型

2024年9月6日:DeepSeek-V2.5融合通用与代码能力模型

2024年12月13日:DeepSeek-VL2多模态MoE大模型

2024年12月26日:DeepSeek-V3全新系列通用大模型

2025年1月20日:DeepSeek-R1推理模型

2025年1月20日:DeepSeek官方App(iOS&Android)

2025年1月27日:DeepSeekJanus-Pro多模态模型

职业机会

截止到2025年2月2日,DeepSeek有以下岗位在招,看看是否会与你有缘。

简历投递:[email protected]

你可以说是看到赛博禅心的招聘信息而来的,毕竟咱公众号的读者本就都很硬核。

但这并没什么用,DeepSeek挑人,还是更看价值观和技术。


责任编辑:站长云网