李飞飞团队“50美元”复刻DeepSeek-R1?一文读透“白菜价”背后的真正逻辑
2月6日,据外媒报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用,使用了16张英伟达H100GPU,耗时26分钟就完成了训练,成功“打造”出了一个名为s1-32B的人工智能推理模型。
根据李飞飞等人的研究论文
凭借低成本、高效能,s1模型成为继“AI界价格屠夫”DeepSeek之后再次引发科技界热议的话题。
但s1推理模型的成本真的只有50美元吗?其性能是否真有描述的那么出色?在“白菜价”的背后,李飞飞团队又有哪些探索?
针对成本问题,复旦大学计算机学院副教授、博士生郑骁庆在接受《每日经济新闻》记者采访时指出,
图片来源:论文《s1:Simpletest-timescaling》
据报道,李飞飞等斯坦福大学和华盛顿大学的研究人员以不到50美元的费用,使用了16张英伟达H100GPU,耗时26分钟就完成了模型s1-32B的训练。
参与该项目的斯坦福大学研究员尼克拉斯·穆宁霍夫(NiklasMuennighoff)更是表示,
然而,关于训练成本,有几点需要明确。
首先,
其次,
而消融实验就意味着,前期是需要大量“烧钱”的。
AI数据公司Databricks研究员奥马尔·哈塔布(OmarKhattab)评价称,(李飞飞团队的)论文似乎是关于Qwen模型的某种发现。
图片来源:X
谷歌DeepMind资深研究员WenhuChen同样表示,“真正神奇的是Qwen模型。我们尝试过把基座模型换成其他模型,用同样的数据去训练,但最终并不能达到这么好的效果。”
也就是说,
李飞飞团队发表的论文提到,根据Qwen2.5-32B-Instruct进行微调的s1-32B模型,在数学和编码能力测试中的表现,与OpenAI的o1和DeepSeek的R1等尖端推理模型不相上下,在竞赛数学问题上的表现更是比o1-preview高出27%。
图片来源:论文《s1:Simpletest-timescaling》
此外,研究结果显示,s1-32B是样本效率最高的开放数据推理模型,表现明显优于其基座模型(Qwen2.5-32B-Instruct)以及OpenAI的推理模型o1-preview。
事实上,
图片来源:论文《s1:Simpletest-timescaling》
研究结果显示,在AIME2024和MATH500两个测试集中,s1-32B超过了o1-preview,
事实上,
测试时扩展是一种在模型推理阶段通过多步推理来提高模型性能的技术。具体来说,研究团队
例如,当被问到“raspberry”中有几个“r”时,模型首先进行了初步推理,并得出了错误的初步结果:有2个r。但推理过程并没有就此结束,模型又重新进行推理,优化了上次回答的结果,输出了最终的答案:3个r。
图片来源:论文《s1:Simpletest-timescaling》
OpenAI的o1系列模型就是一个典型的例子,展现了测试时拓展在模型性能提升上的潜力。
微软CEO萨提亚·纳德拉(SatyaNadella)曾表示,
此外,李飞飞研究团队还从16个来源收集了59029道高质量题目,包括数学竞赛问题、博士级别的科学问题、奥林匹克竞赛问题等,并通过三个标准进行验证:难度、多样性和质量。
这个数据集的构建基于三个关键标准:难度、多样性和质量。
复旦大学计算机学院副教授、博士生郑骁庆在接受每经记者时表示,
踩一下[0]
顶一下[0]