日本一区二区视频免费_中文无码日韩欧_国产成年片_久久国产综合视频_www.久久亚洲_亚洲AV无码专区色爱天堂老鸭

開源巨頭Meta陷“刷榜”爭議,Llama 4暴露大模型評測機制隱憂

圖片來源:視覺中國

藍鯨新聞4月9日訊(記者 朱俊熹)開源霸主Meta近來陷入了尷尬的境地。當地時間4月5日,Meta發布了全新的Llama 4系列模型。但很快便因為實測效果不及預期,而遭遇“刷榜”爭議。

Meta此次率先推出了Llama 4系列中的Scout(偵察者)、Maverick(獨行俠)兩款模型,并預覽了仍在訓練中的Behemoth(巨獸)模型。據其介紹,Llama 4 Maverick在LM Arena評測榜中位居第二,超越了ChatGPT-4o、DeepSeek-V3等領先模型,僅次于谷歌的Gemini 2.5 pro。

圖片來源:Meta

但引起注意的是,Meta在公告的注腳處提到,該項測試使用的是針對對話優化版的Llama 4 Maverick模型。4月8日,LM Arena平臺在社交媒體X上回應稱,“Meta對我們政策的理解與我們對模型提供商的預期不符。Meta本應更明確地說明‘Llama-4-Maverick-03-26-Experimental’是一個針對人類偏好優化的定制模型?!盠M Arena表示,將會添加Maverick的公開版本,并會對排行榜政策進行更新,以強化公平、可重復評估性。

LM Arena模型基準測試平臺由加州大學伯克利分校SkyLab的研究人員創建。有別于其他評測集,它采用的是眾包的投票方式。在該平臺上,用戶可以向兩個匿名的AI對話助手提出任何問題,投票選出認為更優的答案,以此評選得到最佳的大模型。

在關于Llama 4的回應中,LM Arena提到,初步分析顯示,風格和模型回應的語氣是影響排名的重要因素,正在進行更深入的分析,表情符號的使用或許也會產生影響。一位國內大廠大模型從業者告訴藍鯨新聞,用戶在評測時,會偏向于選擇回答更長的、活潑的、會夸人的模型。

根據LM Arena公布的評選過程不難發現,Llama 4 Maverick實驗版在回答時,篇幅要顯著長于其他模型,語氣更貼近真人對話,還會積極使用表情符號。但有使用者發現,當詢問同樣的問題時,用于LM Arena測試的實驗版和部署在其他平臺上的版本所生成的回復風格存在較大出入。

圖片來源:Llama 4 Maverick實驗版生成的回復

北京理工大學研究語言模型評測與推理方向的博士生袁沛文對藍鯨新聞表示,通過LM Arena所采用的眾包形式,盡管大眾的提問足夠有泛化性,是模型訓練時不可知的,但依然存在“刷榜”風險。LM Arena平臺主打盲測,但可以借助各種隱蔽的方式實現去匿名化,例如直接詢問它是哪個模型、通過一些后門特征來判別模型,或通過水印技術檢測出自家模型。在去匿名化之后,大模型廠商就可以通過海量IP來為自己的模型刷票。

除了眾包投票外,業內也會采用其他的大模型評測方式,但當下都難以做到完全的客觀、全面。據袁沛文介紹,最為廣泛采用的評測形式是大模型Benchmark(基準測試),即人類專家圍繞某項任務來出題,讓模型進行回答,看是否與人類期望相同。由于模型從互聯網平臺上獲取訓練語料,難免會摻雜一些基準測試。負責任的開發者會主動從訓練集中過濾這部分測試集,也有人可能會采取相反的做法,甚至可能在后訓練階段讓模型在一些主流基準測試上做強化,使其測試表現明顯虛高,“就像訓練時背過了題目和答案”。

此前Meta首席AI科學家、圖靈獎得主楊立昆還參與發起了一項評測榜單LiveBench,被稱作“最難作弊”的榜單。LiveBench主打提供具有挑戰性、無污染的基準測試,每月對問題進行更新。袁沛文指出,雖然這能避免模型提前背題,但一個問題在于是否總能收集到足夠多的數據實現更新。實際上,LiveBench的更新頻率也越來越慢,除本月的更新外,上一次更新還要追溯到五個月前。此外,一些垂類評測領域也無法被覆蓋,難以知道模型在具體業務場景上的能力表現。

“不難發現,現有的范式都沒法從根本上同時滿足兩個評測領域的核心愿景:一是可信,沒有辦法刷榜;二是可擴展,任何評測需求、能力、場景都能被滿足?!痹嫖谋硎?。

面對“刷榜”質疑風波,Meta副總裁兼GenAI負責人Ahmad Al-Dahle在社交媒體上否認了在測試集上進行模型訓練的說法,“我們絕不會這么做”。據其說法,用戶感知到的質量差異是由于穩定性還沒有完全調整到位。

拋開備受爭議的LM Arena測試,Meta公布的結果顯示,Llama 4 Maverick在部分基準測試上表現優于GPT-4o、Gemini 2.0 Flash、DeepSeek-V3等模型,但不及更為領先的GPT-4.5、Claude 3.7 Sonnet、Gemini 2.5 Pro等。尚未發布的Llama 4 Behemoth會在以 STEM 為重點的基準測試上對標這些頂尖模型。此外,目前Meta公布的模型中還沒有類似OpenAI o1、DeepSeek-R1的推理模型。

自DeepSeek年初引發海內外熱議以來,對此前在開源領域占據領先的Meta同樣造成巨大沖擊。據媒體此前報道,Meta為此組建了多個專門的研究小組,對DeepSeek進行分析并希望借此改進Llama模型。

Meta表示,全新的Llama 4模型是其首批使用MoE(混合專家)架構的模型。DeepSeek-V3、阿里Qwen2.5-Max等模型也是基于MoE架構,在處理單個token時只激活模型中的部分參數,以實現更高的計算效率。

硅谷科技媒體The Information引述知情人士說法稱,在過去一年多的時間里,Meta的研究人員一直在激烈地爭論,究竟要將Llama 4變成MoE模型還是延續一直采用的Dense模型。對Meta來說,做出改變技術方案的決定并不容易。

AI財評
**財經視角點評:Meta Llama 4“刷榜”爭議背后的戰略焦慮與行業博弈** Meta發布Llama 4系列模型卻陷入“刷榜”爭議,暴露其在開源大模型領域的競爭壓力。盡管官方否認刻意優化測試數據,但LM Arena的質疑反映了行業對評測透明性的高度敏感。當前大模型評測體系(眾包投票、基準測試等)均存在漏洞,廠商可能通過“背題”或風格優化虛高排名,削弱了可信度。 從技術看,Meta轉向MoE架構(如DeepSeek-V3)是應對效率瓶頸的必然選擇,但內部技術路線的分歧(MoE vs. Dense)可能拖累迭代速度。而Llama 4對標GPT-4.5、Claude 3.7的“巨獸”模型尚未發布,顯示其與頭部閉源廠商仍存差距。 **核心洞察**:Meta需平衡開源生態影響力與商業競爭力。若評測公信力受損,可能動搖開發者信心,影響其通過開源構建行業標準的戰略。未來,大模型競爭將更依賴真實場景落地能力,而非榜單排名。
主站蜘蛛池模板: 欧美日韩在线免费播放_丰满人妻无奈张开双腿AV_国产高清免费AV片在线观看不卡_四虎国产精品永久在线_成人色综合_亚洲精品成人自拍_91色精品视频在线_91叼嘿视频 | 国产成人在线观看_青青草91视频_日韩一二在线_天天操91_国产精品内射后入合集_四库成人免费视频_在线综合亚洲欧美网站_在线一二三四区 | 亚洲视频一区二区三区四区_一级全黄视频_干逼毛片_懂色av一区二区三区四区五区_69视频免费看_久久国产精_青草视频免费_青青青在线播放视频国产 | 国色天香2019中文字幕在线观看_亚洲AV无码传区国产乱码O_97在线免费公开视频_熟女无套高潮内谢吼叫_国产精品嫩草影院入口一二三_国产亚洲欧美日韩精品一区二区三区_乱色欧美激情亚洲欧美激情_四虎在线免费观看视频 | 久久久精品有限公司_色噜噜国产精品视频一区二区_国产麻豆精品theporn_黄色1级大片_一及毛片视频_久久精品国产清自在天天线_豆产96豆麻豆_亚洲AV日韩AV一区二区三曲 | 久久久久久亚洲视频_国产精品一区二区久久精品涩爱_男人边吃奶边做呻吟免费视频_97视频总站_国产三级农村妇女在线_国产偷伦视频片手机在线观看_色呦呦日韩精品_免费黄色a | 精品一区二区在线视频_91香蕉国产在线观看免费永久_国产成人Av乱码免费观看_国产66页_男人女人做爽爽18禁网站_日干夜操_中国hd高清xxxxvideo_japan15—16hd | 亚洲欧洲日产国产av无码_亚洲网友自拍_永久免费的无码中文字幕_成在线人永久免费视频播放_aaa一区_日本教室三级在线看_国产成人精品大尺度在线观看_一本大道在线视频 | 91激情网站_精品亚洲视频在线_国产精品天天看特色大片_九一成人免费版_日本三区视频_妺妺窝人体色www在线观看_亚洲伦理在线观看_国产一级二级三级毛片 | 五月丁香啪啪中文字幕_国产欧美日韩精品一区二区被窝_国产欧美校园小说在线_国产一区视频在线播放_久久精品视频99_欲帝精品福利视频导航_国产成人综合一区人人_黄色免费一级 | 婷婷亚洲精品久久无码一区二区三区_久久成人毛片_久久久亚洲高清_澳门午夜影院_久久ww_奇米五月_无码免费在线观看小视频_亚洲一区二区毛片 | 亚洲国产欧美国产综合久久_国产精品自在线拍国产第一页_H漫全彩纯肉无码网站_亚洲AV第一页国产精品_亚洲影院成人_日韩a级一片_国产精品高_午夜视频免费在线 | 欧美中文在线观看_国产91精_无码国产69精品久久久久网站_中文在线a在线_毛片大全免费_免费观看色网站_农村一级毛片_意甲赛程2024赛程表最新 | 成人99一区二区激情免费看_中文字幕乱老妇女一视频_久久网站视频_天天摸夜夜添久久精品_日本深夜福利视频_亚洲日本精品一区二区三区_高h视频在线免费观看_88av导航 | 午夜毛片视频_美女裸身裸乳视频网站_av成人永久免费看片本色_第一福利网站_xxxav在线_免费看男人操女人_国产精品麻豆99久久久久久_亚洲国产视 | 91九色国产_九九热这里只有精品8_成人在线啊v_国产高清乱伦精品_精品在线视频一区_日韩视频网_亚洲精品无码一区二区_中文字幕人妻熟女在线 | 日本乱码卡一卡2卡3卡三卡四_国产亚洲精品成人_嘿咻嘿咻男女免费专区_亚洲精品网站在线观看你懂的_57pao国产一区二区_黄片123_欧洲另类交_亚洲青涩在线 | 国产成人高清啪免费观看软件_久久婷婷五月综合中文字幕_午夜成人性爽爽免费视频_中文字幕日韩在线视频_韩国理论视频_69xx免费观看_亚洲日韩国产av中文字幕_视频精品国内 | 尤物视频在线观看_国产一区欧美_日韩三级av高清片_亚洲18页_久久一区二_精品这里只有精品_亚洲国产精品视频一区二区三区_人妻少妇精品一区二区三区 | 中国做受xxxxxaaaa_av免费观_国产在线不卡一区二区三区_九九自拍偷拍_欧美一级h_久久久久久国产精品一区_无码精品乱伦国产_1000部啪啪未满十八勿入不卡 | 中国女人内射6XXXXX_69精品视频_麻豆短视频在线观看_91aaa在线观看_国产精久久久久久妇女av_天天澡天天添天天摸av_国产热RE99久久6国产精品首页_亚洲欧美综合精品成人网站 | 好黄好污美女裸体网站_久久久久久a亚洲欧洲aⅴ96_都市激情在线亚洲国产_黄色片s色_超碰青草_大屁股大乳丰满人妻_秋霞午夜鲁丝一区二区老狼_性新婚a大黄毛片 | 日日狠狠久久8888偷偷色_a级毛片网_国产精品第一区揄拍_九九九热精品免费视频观看网站_先锋影音9porny自拍啪_欧美综合精品_yyyyyy高清成人观看免费_亚洲一区二区三区乱码a蜜桃女 | 久久伦理片_成人网视频在线观看_免费特级黄毛片_亚洲综合中文字幕一区二区_精品综合无码视频久久久_欧美日韩网站在线观看_小辣椒福利视频精品导航_成人黄色一级 | 亚洲视频aaa_日本19禁啪啪免费观看www_国产一区二区三区四区www._亚洲精品久久久久中文字幕欢迎你_亚洲精品50p_av无码午夜福利一区二区三区_亚洲第一免费播放区_91一区在线 | 啪啪影视_一日本道A高清免费播放_亚洲三级久久久_一级毛片毛片_99久久久久久国产精品_欧美在线视频日韩_亚洲国产一区二区三区波多野结衣_精品三区 | 91视频免费看网站_300部国产真实乱_国产麻豆乱码精品一区二区三区_999久久久精品免费毛片_国产精品爽爽va在线观看无码_最好的2019中文大全在线观看_国产又黄又爽又色的免费视频白丝_九九视频在线观看 | 五十路亲子中出在线观看_极品少妇高潮到爽_狠狠干夜夜操天天爽_日韩网站免费观看_天天躁日日躁狠狠久久_免费播放一区_刺激cijilu福利区在线观看_国产区更新 | 日本永久视频_德国肥妇性猛交视频_97久久精品人人爽人人爽蜜臀_久草网站在线_粉嫩98久久综合国产精品一区_樱桃视频大全版在线观看_久久久免费人体_国产精品综合在线 | 中文字幕无线精品亚洲乱码一区_免费一级高清毛片_高清久久久久_日韩国产欧美综合_国产精品色哟哟网站_亚洲黄色高清视频_av在线资源播放_久久乐视频 | 百合AV无码专区亚洲AV极速版_国产视频网爆门福利观看_日韩美女中文字幕_97caoporn国产免费人人_久久精品1区2区_日韩国产变态另类欧美_日韩av网址一卡二卡_伊人网狠狠干 | 久久亚洲色WWW成人不卡_超碰在线观看99_鲁一鲁一鲁一鲁一av卡三_极品无码AV国模在线观看_国产第56页_蜜桃传媒视频麻豆第一区免费观看_51成人看片_欧洲无码一区二区三区在线观看 | 国产精品影音_国产一级做a爰片在线看免费_老头把我添高潮了A片_午夜神器成在线人成在线人_亚洲精品中文字幕日本久久久_天天操天天谢_九色视频人porny_91久久久久久久国产欧美日韩- | 国产午夜精品一区二区三区软件_国产精品视频久久久久_精品国产区在线_亚洲精品成人av在线_一级免费黄色片_久久久不雅视频_日韩啪啪小视频_超碰人人舔 | 久久免费久久_亚洲va欧美va国产va天堂影院_国产毛片av在线_99久久久无码国产精品不卡_黄色视屏免费在线观看_亚洲大乳大丰满中文字幕_国产精品久久久久久久久鸭_综合久久网站 | 国产成人无码精品久久久性色_国产精品呻吟久久av图片_男人激烈吮乳吃奶视频免费_www.伊人.com_亚洲日韩中文无码久久_欧美人与动性行为视频_黄色在线视屏_国产色综合一区 | 亚洲AV无码乱码精品国产_日韩亚射吧_四虎影视国产精品久久_最近好看中文字幕日产_欧美jjzz_精品无码人妻一区二区免费蜜桃_xxxx69在线观看_青草草在线视频 | 美女91_一本大道久久a久久精品综合_青草久操_亚洲伦理99热久久_狠狠色噜噜狠狠狠888米奇_久久美女色视频_777影音_狠狠色综合7777久夜色撩人 | 国产91片_国产一级免费在线视频_国产女人精品视频_毛片1级_一级在线看_久久久麻豆_国产精成人品91_亚洲黄色av | 欧美疯狂xxxxbbbb喷潮_亚洲成年人在线观看_男女啪啪a级毛片_国产中文1_91在线视频观看免费_欧美精品一_国产精品一区二区_中文字幕佐山爱一区二区免费 | 97久章草在线视频播放_太紧了夹得我的巴好爽视频_国产黄色网址在线看_日韩国产一级_www四虎影视_亚洲成AV人片不卡无码_日本乱大交xxxxx_国产精品日韩久久 |