要聞

Llama 4被質(zhì)疑“作弊”！在競(jìng)技場(chǎng)刷高分，實(shí)戰(zhàn)頻頻“翻車”，Meta AI副總裁緊急辟謠，圖靈獎(jiǎng)大佬“站臺(tái)”

每日經(jīng)濟(jì)新聞 2025-04-08 18:34:42

當(dāng)?shù)貢r(shí)間4月5日，Meta宣布推出新一代開源大模型Llama 4，稱其在基準(zhǔn)測(cè)試中領(lǐng)先同行，但開發(fā)者實(shí)測(cè)發(fā)現(xiàn)其效果不佳，甚至問(wèn)題百出，質(zhì)疑其作弊“刷榜”。Meta深陷輿論漩渦。對(duì)此，Meta緊急辟謠，稱相關(guān)說(shuō)法毫無(wú)事實(shí)依據(jù)。

每經(jīng)記者｜宋欣悅每經(jīng)編輯｜蘭素英

當(dāng)?shù)貢r(shí)間4月5日，美國(guó)科技巨頭Meta宣布推出其新一代開源大模型Llama 4。Llama 4目前有兩個(gè)混合專家（MoE）架構(gòu)的版本，分別為Scout和Maverick。更為強(qiáng)大的Llama 4 Behemoth仍在訓(xùn)練中。

Meta官方稱，Llama 4在一系列廣泛接受的基準(zhǔn)測(cè)試中均實(shí)現(xiàn)了領(lǐng)先同行的水平，尤其是Llama 4 Behemoth，在多個(gè)基準(zhǔn)測(cè)試中的表現(xiàn)要優(yōu)于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等一眾行業(yè)頂尖封閉模型。

然而，就在模型發(fā)布后不久，鋪天蓋地的質(zhì)疑聲涌來(lái)。開發(fā)者實(shí)測(cè)Llama 4后發(fā)現(xiàn)，其真實(shí)效果并不如宣傳中那么驚艷，甚至問(wèn)題百出。

與此同時(shí)，有開發(fā)者質(zhì)疑Meta作弊“刷榜”，根據(jù)相關(guān)評(píng)測(cè)基準(zhǔn)對(duì)模型進(jìn)行“量身定制”訓(xùn)練。

知名科技媒體TechCrunch也發(fā)文，直指Meta新AI模型的性能測(cè)試“具有一定誤導(dǎo)性”。

Meta深陷輿論漩渦之中。對(duì)于外界的質(zhì)疑，當(dāng)?shù)貢r(shí)間4月7日，Meta生成式AI副總裁艾哈邁德·阿爾·達(dá)赫勒（Ahmad Al-Dahle）在社交平臺(tái)X上公開回應(yīng)，明確指出相關(guān)說(shuō)法毫無(wú)事實(shí)依據(jù)。

圖片來(lái)源：Meta官網(wǎng)

Meta“刷榜”？開發(fā)者實(shí)測(cè)Llama 4：編程等任務(wù)表現(xiàn)不佳，“遠(yuǎn)排不上第一或第二”

據(jù)Meta介紹，Llama 4模型家族使用了混合專家（MoE）架構(gòu)，原生支持多模態(tài)，實(shí)力超強(qiáng)，堪稱“全能選手”。

其中，Llama 4 Scout擁有170億活躍參數(shù)以及16個(gè)專家模塊，提供長(zhǎng)達(dá)1000萬(wàn)tokens上下文窗口。在多項(xiàng)基準(zhǔn)測(cè)試中，Scout的表現(xiàn)優(yōu)于Gemma 3和Gemini 2.0 Flash-Lite等模型。

Llama 4 Maverick同樣擁有170億活躍參數(shù)，專家模塊數(shù)量提升至128個(gè)。在多項(xiàng)主流基準(zhǔn)測(cè)試中，其成績(jī)超越了GPT-4o和Gemini 2.0 Flash。Meta還特意點(diǎn)名DeepSeek，強(qiáng)調(diào)在推理和編碼方面，Llama 4 Maverick可以比肩DeepSeek新開源的V3模型，而其活躍參數(shù)還不到DeepSeek新版V3的一半。

被Meta稱為“世界上最聰明的模型之一”的Llama 4 Behemoth則擁有2880億活躍參數(shù)和16個(gè)專家模塊。在多項(xiàng)主流基準(zhǔn)測(cè)試中，其性能表優(yōu)于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等行業(yè)頂尖模型。

圖片來(lái)源：Meta官網(wǎng)

而在大模型競(jìng)技場(chǎng)上，Llama 4 Maverick表現(xiàn)奪目，總排名位居第二，成為第四個(gè)突破1400分的大模型。在開源模型中，Llama 4 Maverick排名第一，超越了DeepSeek。

在困難提示詞、編程、數(shù)學(xué)、創(chuàng)意寫作等任務(wù)的比拼中，Llama 4 Maverick均斬獲第一名。相較于自家前代產(chǎn)品Llama 3（405B）獲得的1268分，Llama 4 Maverick的得分實(shí)現(xiàn)大幅躍升，達(dá)到了1417分。

圖片來(lái)源：大模型競(jìng)技場(chǎng)

這本應(yīng)是開源社區(qū)的又一狂歡。但開發(fā)者們實(shí)測(cè)發(fā)現(xiàn)，Llama 4的效果并不像官方宣稱的那樣驚艷，甚至可以說(shuō)是問(wèn)題百出。

Menlo Ventures風(fēng)險(xiǎn)投資人迪迪·達(dá)斯（Deedy Das）直言，“Llama 4實(shí)際上是一個(gè)糟糕的編程模型。”

達(dá)斯指出，在專注于編程任務(wù)（如代碼生成和代碼補(bǔ)全）的KCORES基準(zhǔn)測(cè)試中，Llama 4 Scout和Llama 4 Maverick表現(xiàn)欠佳，落后于GPT-4o、Grok 3、DeepSeek-V3等模型。

圖片來(lái)源：KCORES LLM Arena

這與此前Llama 4在大模型競(jìng)技場(chǎng)的表現(xiàn)形成鮮明反差。

有網(wǎng)友直接曝出，Llama 4在大模型競(jìng)技場(chǎng)上存在過(guò)擬合現(xiàn)象，有極大的作弊“刷榜”嫌疑。

在一些實(shí)測(cè)中，Llama 4在上下文任務(wù)的實(shí)際表現(xiàn)遠(yuǎn)低于預(yù)期。Llama 4 Maverick在aider多語(yǔ)言編碼基準(zhǔn)測(cè)試中的實(shí)測(cè)得分僅為16%。

Abacus.AI首席執(zhí)行官賓杜?雷迪（Bindu Reddy）評(píng)論道：“人類的評(píng)估已經(jīng)毫無(wú)意義了……根據(jù)現(xiàn)實(shí)世界的表現(xiàn)，Llama 4 Maverick應(yīng)該遠(yuǎn)遠(yuǎn)排不上第一或第二。”

大模型競(jìng)技場(chǎng)官方也下場(chǎng)“補(bǔ)刀”，指出Meta在大模型競(jìng)技場(chǎng)使用的并非HuggingFace上供開發(fā)者使用的Llama 4版本，而是“針對(duì)人類偏好進(jìn)行優(yōu)化的定制模型Llama-4-Maverick-03-26-Experimental”。

大模型競(jìng)技場(chǎng)官方要求Meta對(duì)此事作出澄清，并強(qiáng)調(diào)其排行榜結(jié)果準(zhǔn)確可靠，后續(xù)將對(duì)Llama 4重新進(jìn)行評(píng)測(cè)。

圖片來(lái)源：X

知名科技媒體TechCrunch也發(fā)文，標(biāo)題直言Meta新AI模型的性能測(cè)試“具有一定誤導(dǎo)性”。

文章指出，針對(duì)基準(zhǔn)測(cè)試優(yōu)化特定版本去打榜，卻給開發(fā)者提供“基礎(chǔ)版”的做法，讓開發(fā)者難以依據(jù)榜單排名準(zhǔn)確預(yù)估模型在實(shí)際應(yīng)用場(chǎng)景中的真實(shí)表現(xiàn)。

《每日經(jīng)濟(jì)新聞》記者發(fā)現(xiàn)，在Llama官網(wǎng)提供的性能對(duì)比測(cè)試圖的最下面，寫著其在大模型競(jìng)技場(chǎng)上使用的是專門針對(duì)對(duì)話場(chǎng)景優(yōu)化的Llama 4 Maverick版本。不過(guò)，這一信息的字體極小，很難被注意到。

圖片來(lái)源：X

Llama 4訓(xùn)練作弊？Meta緊急辟謠，大佬楊立昆也“站臺(tái)”

就在Llama 4被集體質(zhì)疑之時(shí)，內(nèi)部員工的一則爆料帖子，讓Meta陷入了更深的輿論漩渦之中。

4月7日，在海外留學(xué)求職交流論壇“一畝三分地”上，一位自稱參與了Llama 4訓(xùn)練的內(nèi)部員工爆料稱，Llama 4模型訓(xùn)練測(cè)試集作弊，并表示自己已因此辭職。

圖片來(lái)源：一畝三分地

該員工透露，盡管團(tuán)隊(duì)反復(fù)努力訓(xùn)練，Llama 4的內(nèi)部模型性能始終無(wú)法達(dá)到開源SOTA（State-of-the-Art，頂尖水平）基準(zhǔn)，且差距明顯。為達(dá)成目標(biāo)，公司領(lǐng)導(dǎo)層提出在訓(xùn)練后期將各種基準(zhǔn)測(cè)試的測(cè)試集數(shù)據(jù)混入訓(xùn)練或微調(diào)數(shù)據(jù)中，以此在各項(xiàng)指標(biāo)上達(dá)成目標(biāo)，交出一份“好看”的成績(jī)單。

這位內(nèi)部員工表示，自己無(wú)法接受公司這種做法，甚至辭職信中明確要求不要在Llama 4技術(shù)報(bào)告中掛名。

就在Llama 4發(fā)布前幾天，Meta AI研究主管喬爾·皮諾（Joelle Pineau）在工作8年之后突然宣布離職。

不過(guò)，由于發(fā)帖人并未實(shí)名，該帖子的真實(shí)性暫無(wú)法核實(shí)。在帖子下方評(píng)論區(qū)，已有數(shù)名Meta員工實(shí)名進(jìn)行辟謠。

Meta研究科學(xué)家主管Licheng Yu稱，團(tuán)隊(duì)絕不存在針對(duì)測(cè)試集過(guò)擬合訓(xùn)練的情況。

圖片來(lái)源：一畝三分地

另一位Meta高級(jí)AI研究科學(xué)家Di Jin也反駁道：“我參與了微調(diào)和強(qiáng)化學(xué)習(xí)的數(shù)據(jù)混合工作，并沒(méi)有這種（將基準(zhǔn)測(cè)試的測(cè)試集數(shù)據(jù)混入訓(xùn)練或微調(diào)數(shù)據(jù)）情況。”

并且，Di Jin還指出，近期離職的AI研究主管喬爾?皮諾，實(shí)則并非Meta GenAI團(tuán)隊(duì)成員，沒(méi)有參與GenAI的任何模型訓(xùn)練工作。

圖片來(lái)源：一畝三分地

根據(jù)Meta的組織架構(gòu)體系，喬爾?皮諾是FAIR的副總裁，而FAIR實(shí)際上是Meta內(nèi)部與GenAI完全獨(dú)立的組織，GenAI才是負(fù)責(zé)Llama項(xiàng)目的組織。

針對(duì)外界對(duì)Llama 4模型的諸多質(zhì)疑，當(dāng)?shù)貢r(shí)間4月7日，Meta生成式AI副總裁艾哈邁德·阿爾·達(dá)赫勒（Ahmad Al-Dahle）在社交平臺(tái)X上公開回應(yīng)，明確指出相關(guān)說(shuō)法毫無(wú)事實(shí)依據(jù)。

同時(shí)，達(dá)赫勒指出，部分用戶通過(guò)不同云服務(wù)商使用Llama 4模型時(shí)，遭遇了質(zhì)量不穩(wěn)定問(wèn)題。他對(duì)此解釋道：“由于我們?cè)谀Ｐ蜏?zhǔn)備好后就迅速發(fā)布，因此預(yù)計(jì)需要幾天的時(shí)間來(lái)調(diào)整所有公開版本。后續(xù)，Meta將持續(xù)進(jìn)行錯(cuò)誤修復(fù)工作，并與合作伙伴保持溝通。”