从高光到塌房,Meta Llama 4 遭遇惊魂72小时
“Meta应该更清楚地表明『Llama-4-Maverick-03-26-Experimental』是一个作为人类偏好进行优化的定制化模型。我们正在更新排行榜的策略,以避免此类混淆再次发生。”
图/X
这条声明不只是澄清,一定程度上也是对整个大模型行业的一记警钟。
ChatbotArena由加州大学伯克利分校发起,是当前大模型评测中可能最具行业影响力的“真人盲测”排行榜,核心的机制是通过让开发者和AI爱好者会在平台上用相同问题向两款模型提问,对比回答内容并投票打分。
而这种“真人盲测”的机制,让ChatbotArena有别于其他任何基准测试,也成为了外界最为信赖的大模型排行榜。可以说,一款模型是否登上“ChatbotArena排行榜”前列,在一定程度上直接影响其在媒体和开发者群体中的口碑与采纳率。
正因如此,当Meta在4月5日发布其最新一代开源大模型Llama4,随后快速冲上ChatbotArena排行榜第二,力压一众顶级大模型,仅次于Google前脚发布的Gemini2.5Pro,自然也就引起了所有人的好奇和期待。
但很快,社区发现这一版本是未公开、定制化调优的“实验模型”,而并非Meta开源的正式版。于是,争议爆发:这算不算“刷榜”?ChatbotArena是否被利用为营销工具?Meta为什么要这样操作?
更糟的是,在部分官方没有展示的专业基准测试中,Llama4表现也不尽如人意,几乎垫底。不少第一批尝试的用户也在Reddit、X等社交平台上发文表达了失望,有人就在发帖中提到Llama4在编程能力上的不尽如人意,并指出:
“考虑到Llama-4-Maverick有402B的参数量,我为什么不直接使用DeepSeek-V3-0324呢?或者Qwen-QwQ-32B可能更合适——虽然性能相似,但它的参数量只有32B。”
图/Reddit
这让人不禁疑惑,曾经被开源阵营寄予厚望、凭借Llama2和Llama3逐渐建立口碑的Meta,为什么就在Llama4翻了车?
01从高光到塌房,Llama4的72小时惊魂
时间回到4月5日,Meta在官方博客上发布《TheLlama4herd:ThebeginningofaneweraofnativelymultimodalAIinnovation》一文,正式宣布Llama4系列模型面向社区开源。
这一次,Meta公开了最新一代模型的三个版本:Llama4Scout、Llama4Maverick、还在训练中的“教师模型”Llama4Behemoth,均首次采用了混合专家(MoE)架构。
图/Meta
其中最主流、最受关注的Maverick版本,是拥有128个“专家”的170亿活跃参数模型(总参数为4000亿),Meta将其描述为“同类最佳的多模态模型”,强调其在多方面超过了Gemini2.0与GPT-4o,在编码和推理方面比Deepseek3.1更有竞争力。
但就在Llama4发布不久,情况迅速脱离了Meta的预期。
在社区层面,首批用户对Llama4的表现并不买账。在多个测试中,尤其是在需要代码能力和严谨逻辑推理的场景中,Llama4的表现并没有兑现其超越GPT、DeepSeek的表现。包括在AiderChat提供的Polyglot编程测试中,Maverick版本的正确率仅为16%,处于排行榜末尾。
不仅与其庞大的参数体量完全不符,甚至落后于规模更小的开源模型,比如GoogleGamma。这种结果让不少开发者大感意外,也与官方宣传形成了强烈反差。
图/ChatbotArena
风评下滑之际,更严厉的质疑也接踵而至——Llama4是否使用了公开测试集进行训练?是否针对通用基准的ChatbotArena针对性优化?这些质疑都在技术社区迅速传播、发酵,包括ChatbotArena在声明中尽管并未使用“作弊”等字眼,但字里行间的语气已足够强硬和不满。
尤其是中文移民社区“一亩三分地”上,自称提交辞呈、要求从Llama4技术报告中删除名字的“Meta员工”发帖表示,随着Deadline(截止日期)的逼近,Meta最终选择了将各个基准测试的测试集混合在Post-Training“后训练”(对应大模型的“预训练”阶段)之中。
不过Meta团队很快出面做了澄清,一位经手“后训练”的MetaGenAI成员实名(LichengYu)表示:
“这两天虚心聆听各方feedback(比如coding、creativewriting等缺陷必须改进)希望能在下一版有提升。但为了刷点而overfit测试集我们从来没有做过,实名LichengYu,两个ossmodel的posttraining有经手我这边请告知哪条prompt是测试集选出来放进训练集的我给你磕一个+道歉!”
图/LichengYu
公开资料显示,LichengYu(虞立成)本科毕业于上海交通大学,2014年获佐治亚理工学院和上海交通大学双硕士学位,2019年获北卡罗来纳大学教堂山分校计算机科学博士学位,2023年6月至今在Meta担任研究科学家经理,并参与了Llama3、Llama4项目。
同时,负责MetaGenAI的副总裁AhmadAl-Dahle也在X平台明确表示,“Meta没有在测试集上训练Llama4。”而针对Llama-4-Maverick-03-26-Experimental,Meta也在争议发生后选择了发布开源版本,以回应外界的批评。
图/X
但这些回应显然都没能回避掉一个问题:Llama4的真实能力。事实上,不管是LichengYu,还是AhmadAl-Dahle,都在驳斥部分质疑的同时承认了Llama4在性能存在的问题。
作为开源阵营中曾经“最有希望挑战OpenAI”的旗手,Llama4原本承载着开发者与产业界的高度期待。但现在,它却在发布一周内从“高光”跌入“信任危机”,成为大模型竞赛中一次罕见的口碑“滑铁卢”。
02DeepSeek加速开源,Meta被逼到失速
如果只看表面,这次Llama4的口碑翻车,似乎充满了戏剧张力——匿名离职员工爆料称,Meta高层为了赶上内部设定的Deadline,要求将各大测试集混入“后训练”,只为“一个能看的结果”。甚至还传言,负责AI的副总裁JoellePineau也因反对这一做法而离职。
不过从目前公开的信息来看,这些说法经不起推敲。关于使用测试集进行后训练一事,前文的回应其实已经基本澄清。而JoellePineau的离职发生在发布前两天,但她并不负责生成式AI团队,而是领导MetaFundamentalAIResearch(FAIR)研究部门,与Llama4项目并无直接关联。
发布前几天离职的JoellePineau,图/Meta
在辟除这些舆论杂音之后,真正的问题才浮出水面。追根究底,Llama4的问题,不在于造假,而在于开源大模型竞争加剧下的失速。
过去两年,Meta凭借Llama2和Llama3,逐步在开源模型市场上建立起“领先、可靠”的认知。然而到了Llama4,情况已经发生了巨大的变化,DeepSeekV3/R1的发布扭转了开源与闭源模型的差距,并且大大加速了开源模型的发展速度。
这让原本作为“开源领导者”的Llama面临更大的压力。
尽管我们认为前文爆料很多经不起推敲,但有一点却是现实:Llama4确实有Deadline。这一点从Llama4Behemoth还在训练中就得以窥见,而且在参数规模膨胀、架构复杂化(MoE)的同时,Llama4很可能没有留出足够的测试和改进时间,才导致发布后不稳定的性能表现。
图/Meta
此外,Meta也没能控制住动作的变形。Llama-4-Maverick-03-26-Experimental针对对话模式的优化本身无可厚非,但“首发”ChatbotArena的目的却是路人皆知。我们也不知道,这个特调版本又牺牲了哪些?
而从目前来看,Meta的做法显然错了,经过能在发布之处获得更高的期待、更多的关注,但之后的实际表现不仅让人更加失望,也打破了用户对Llama系列“领先、可靠”的认知。
怎么看都是输。
Meta当然还有机会补救。只是,它首先必须正面面对DeepSeek、Qwen、Gamma等其他大模型已经崛起、甚至超越自己的现实,才能谈重整河山。
踩一下[0]
顶一下[0]