OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路

站长云网 2025-01-30 站长云网

春节这几天,国内外AI圈都被DeepSeek刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆。简单来说,DeepSeek最近发布的两个模型——DeepSeek-V3和DeepSeek-R1以很低的成本获得了比肩OpenAI同类模型的性能。

这引发了市场对AI硬件需求的担忧,投资者担心未来对英伟达高端芯片的需求可能会减少。


与此同时,关于DeepSeek技术创新的讨论也非常多。很多人认为,DeepSeek在硬件受限的条件下被逼走出了一条不同于OpenAI等狂堆算力的道路,用一系列技术创新来减少模型对算力的需求,同时获得性能提升。

这些成就得到了包括SamAltman在内的AI领军人物的肯定。



随后,OpenAI首席研究官MarkChen也发了帖。他表示,DeepSeek确实独立发现了一些OpenAIo1也在用的核心理念,不过,这并不代表OpenAI在算力上的高投入是不合理的。

帖子原文如下:

恭喜Deepseek开发出了o1级别的推理模型!他们的研究论文表明,他们独立发现了一些我们在通往o1的路上发现的核心理念。

不过,我认为外界的反应有些过度夸大,特别是在成本方面的说法。拥有两个范式(预训练和推理)意味着我们可以在两个维度而不是一个维度(低成本)上优化某项能力。

但这也意味着我们有两个可以扩展的维度,我们打算在这两个维度上都积极投入算力!

随着蒸馏研究的日益成熟,我们也发现降低成本和提升能力愈发解耦。能够以更低成本(特别是在更高延迟的情况下)提供服务,并不意味着就能产生更好的能力。

我们将继续提升以更低成本提供模型服务的能力,但我们对我们的研究路线图保持乐观,并将继续专注于执行它。我们很高兴能在本季度和今年为大家带来更好的模型!


短短几段话,MarkChen表达了好几层观点,我们让DeepSeek-R1来解读一下每段话的言外之意:


总之,和SamAltman一样,MarkChen的发言也是在重塑外界对OpenAI的信心,并预告今年会带来更好的模型。

此外,OpenAI研究科学家NoamBrown也在努力弱化外界对OpenAI和DeepSeek的对比,但大家似乎并不买单




另外,MarkChen提到的“外界的反应有些过度夸大,特别是在成本方面的说法”这一点最近也被很多人讨论,尤其是“DeepSeek-v3训练成本仅为558万美元”这一说法。其实,DeepSeek-v3的技术报告原文是这么写的:“上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本”


图灵奖得主、MetaAI首席科学家YannLeCun也认为市场对于DeepSeek的成本反应并不合理。不过,他是从推理的角度来看的。他指出,人们常常以为巨额投资主要用于训练更强大的模型,但实际上大部分钱都花在了让这些AI服务能够稳定地服务数十亿用户身上。而且随着AI能力的增强,维持服务运行的成本会变得更高,关键是要看用户是否愿意为这些增强的功能付费。


不少网友对LeCun的看法表示赞同,认为训练、推理成本更低的AI意味着这项技术能更快普及,从而创造更大的市场。



从这个角度来看,DeepSeek在降低推理成本方面的努力似乎比降低训练成本的贡献更值得被关注。



针对可能即将到来的推理需求的激增,OpenAI、Meta等都在做相应准备,比如旨在为OpenAI建设强大基础设施的“星际之门”项目(计划投资5000亿美元,但资金是否到位一直存疑)、Meta新一年600亿美元的AI投资……

看来,2025年,AI市场的竞争依然激烈,DeepSeek将在新一年走出多远还有待观察。

责任编辑:站长云网