Hugging Face希望通过填补封闭源代码的空白使DeepSeek R1完全开放

站长云网 2025-01-28 5iter.com 站长云网

DeepSeek发布其推理模型R1已有一周时间。很多人都在谈论它是开源的这一事实,以及开发者可以如何复制和构建它。现在,参与各种人工智能模型的社区HuggingFace宣布了Open-R1项目,以填补DeepSeek没有开源的组件所留下的空白。

据HuggingFace称,虽然DeepSeek使用的权重是已知的,但用于训练模型的数据集和代码却是未知的。HuggingFace希望通过Open-R1填补这些空白。这项工作非常重要,因为DeepSeekR1非常高效,可以作为创新的基础模型。它还可以作为研究人员、科学家和企业负担得起的模型,以促进创新和突破。

以下步骤是"HuggingFace"为填补空白而分享的简要行动计划:

  • 第一步:从DeepSeek-R1中提炼出高质量的推理数据集,复制R1-Distill模型。

  • 第二步:复制DeepSeek用于创建R1-Zero的纯RL(强化学习)管道。这将涉及为数学、推理和代码策划新的大规模数据集。

  • 第三步:通过多阶段训练,证明我们可以从基础模型→SFT→RL。

  • 同样有趣的是,这项工作可以让每个人将现有的和新的LLM微调为推理模型,从而大大提高其输出结果。它表示,这项工作将非常有用,因为这一过程可以帮助人工智能领域的其他参与者避免在非生产性路径上浪费时间和计算。

    HuggingFace表示,它计划建立的合成数据集将不仅关注数学。它将探索其他领域,为科学等其他领域带来益处,这将使它变得无比有用。

    责任编辑:站长云网