谁是AI之王?大模型评测的变革与未来
日期:2025-11-01 16:52:12 / 人气:6

在大模型竞争日益激烈的当下,人们不禁会问:究竟哪个大模型更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?然而,当AI模型排行榜出现刷分作弊现象后,“谁家大模型最牛”这个问题变得主观起来。直到LMArena这一线上排行榜的出现,情况有了新的变化。
传统Benchmark为何失灵
在LMArena诞生之前,AI大模型的评估方式较为“传统”。研究者通常会准备一组固定的题库,如MMLU、BIG - Bench、HellaSwag等。这些题库在AI学术界广为人知,涵盖学科、语言、常识推理等多个维度,通过让不同模型作答,依据答对率或得分来比较模型。
以MMLU为例,它全称为“Massive Multitask Language Understanding”,涵盖从高中到博士级别的57个知识领域,包括历史、医学、法律、数学、哲学等,模型既要回答技术问题,也要回答社会科学问题,学科跨度大。BIG - Bench更侧重推理和创造力,例如让模型解释冷笑话、续写诗歌或完成逻辑填空。HellaSwag则专门测试模型对日常情境的理解能力。
这些Benchmark在过去二十年主导了AI研究领域,具有标准统一、结果可复现的优点。学术论文若能在相关公开数据集上刷新分数,就意味着“性能更强”,AI的上半场也在这种“比成绩”的节奏中快速发展。
但早期的Benchmark存在局限性。它是静态的,多以单轮问答、选择题形式为主,题目结构简单、评测维度明确,便于统一打分和横向比较。然而,随着模型能力增强、训练数据增多,其局限逐渐显现。
一方面是“题库泄漏”问题,很多测试题早已出现在模型的训练语料里,模型在这些测试上得分高,可能只是“记住”了答案,而非真正“理解”问题。另一方面,Benchmark无法测出模型在真实交互中的表现,更像是一场封闭的考试,而非开放的对话。
华盛顿大学助理教授、英伟达首席研究科学家朱邦华表示,传统静态Benchmark存在过拟合、数据污染等问题,这催生了Arena这种新的模型测评方式。传统的Benchmark数量少、覆盖面不足,而Arena的每个问题都是独特的,来自世界各地人们的随时提问,难以过拟合。
LMArena如何运作
2023年5月,LMArena的雏形诞生于由全球顶尖学府组成的非营利性开放研究组织LMSYS,核心成员包括Lianmin Zheng、Ying Sheng、Wei - Lin Chiang等人。当时他们发布了开源模型Vicuna,而斯坦福大学此前推出了类似的Alpaca,LMSYS团队想知道这两个基于大型语言模型微调的开源项目谁更胜一筹,但当时没有合适的评测方法。
LMSYS团队尝试了两种方法,一是让GPT - 3.5作为评委对不同模型生成的答案打0到10分,后来演化成MT - Bench;另一种是采用人类比较(Pairwise Comparison),即随机挑选两个模型,针对同一个问题分别生成回答,再让人类评审选择哪一个更好,最终第二种方式被证明更可靠,由此诞生了Arena的核心机制。
基于此,他们搭建了实验性网站Chatbot Arena,也就是LMArena的前身。在传统基准测试中,模型在预设题库中答题,而在Chatbot Arena上,模型要“上场打擂台”。用户输入问题后,系统随机分配两个模型,如GPT - 4和Claude,但用户不知道面对的是谁,两边模型几乎同时生成回答,用户只需投票选择左边好还是右边好,投票完成后系统才会揭示它们的真实身份,这个过程被称为“匿名对战”。
投票结束后,系统基于Bradley–Terry模型实现Elo式评分机制,分数根据胜负实时变化,形成动态排行榜。Elo排名机制源于国际象棋,每个模型有初始分数,赢一场涨分,输一场扣分,随着对战次数增加,分数逐渐收敛形成动态排行榜。
这种机制让评测成为“真实世界的动态实验”,而非一次性闭卷考试。此外,LMArena还有独特的“人机协同评估框架”,用人类投票捕捉“真实偏好”,通过算法保证“统计公平”。平台会自动平衡模型的出场频率、任务类型和样本分布,防止某个模型因曝光量大而被“高估”,评测既开放又可控。而且,Chatbot Arena的所有数据和算法都是开源的,任何人都可以复现或分析结果。
朱邦华表示,LMArena的技术本身是经典统计方法的工程化实现,创新点在于系统架构与调度机制。它成功的一个因素是动态选出更适合对比的模型,同时,当时人们对评估基准的需求大,人类偏好也未饱和,使得Arena成为行业黄金基准是合理的。
LMArena的“匿名对战 + 动态评分”方式是从静态Benchmark向动态评测的一次跃迁,评测变成持续发生的“真实世界实验”,就像一个实时运行的AI智能观测站,模型优劣由成千上万用户的选择共同决定。
2023年12月底,前特斯拉AI总监、OpenAI早期成员Andrej Karpathy在X(推特)上称只信任Chatbot Arena和r/LocalLlama,给Chatbot Arena带来了第一批“流量”。2023年底到2024年初,随着GPT - 4、Claude、Gemini、Mistral、DeepSeek等模型陆续接入,平台访问量迅速增长,研究者、开发者、普通用户都在此观察模型“真实表现”。
2024年底,平台功能和评测任务扩展,除语言模型对话任务外,还涉及代码生成、搜索评估、多模态图像理解等细分赛道,陆续上线Code Arena、Search Arena、Image Arena等子平台。2025年1月,平台正式更名为LMArena。几个月前,谷歌Nano Bnana的爆火让普通用户关注到LMArena,谷歌最新文生图模型Nano Banana最早在LMArena引发关注,且谷歌似乎已将让新模型在LMArena上测试作为惯例,几乎所有头部模型都在LMArena“打擂台”。
LMArena光环之下的“公平性”危机
LMArena的火爆使其成为大模型评测的“非官方标准”,但随着光环增大,它也受到诸多质疑。
首先是公平性问题。在LMArena的匿名对战机制中,用户投票决定模型的Elo排名,但“人类评判”并不总是中立。不同语言背景、文化偏好和个人使用习惯会影响投票结果,研究发现用户更倾向于选择“语气自然”“回答冗长”的模型,而非逻辑最严谨、信息最准确的模型,这意味着模型可能因“讨人喜欢”而获胜,而非更聪明。
2025年初,Cohere、斯坦福大学及多家研究机构的团队联合研究表明,Arena结果与传统benchmark分数并非强相关,存在“话题偏差”与“地区偏差”,不同类型问题或不同用户群体的投票可能显著改变模型排名。
此外,还存在“游戏化”与“过拟合”问题。当LMArena排名被广泛引用甚至被视为权威榜单时,一些公司为“上榜”专门优化模型回答风格,如使用模糊语气、提升字数密度、精细调教提示工程。大型供应商通过API接口收集大量用户与模型交互数据,但数据未公平共享,62.8%的数据流向特定模型提供商,如Google和OpenAI的模型分别获得约19.1%和20.2%的全部用户对战数据,其他83个开源模型总数据占比仅为29.7%,这使得专用模型供应商能利用更多数据进行优化,甚至针对LMArena平台专门优化,导致过度拟合特定指标提升排名。
典型例子是Meta的“刷榜事件”。今年4月,Meta提交的Llama 4 Maverick模型版本在LMArena上表现超越GPT - 4o与Claude,跃居榜单第二,但Llama 4大模型开源版上线后,开发者发现其真实效果不佳,质疑Meta疑似提供经过专门针对投票机制优化的“专供版”模型,导致Llama 4口碑急转直下。舆论爆发后,LMArena官方更新排行榜政策,要求厂商披露模型版本与配置,将公开的Hugging Face版本的Llama 4 Maverick加入排行榜重新评估,但事件引发业内关于“评测公正性”的激烈讨论。
除了系统和技术挑战,LMArena的商业化也使其中立性受到质疑。2025年5月,LMArena背后的团队注册公司“Arena Intelligence Inc.”,完成1亿美元种子轮融资,投资方包括a16z、UC Investments和Lightspeed等,这意味着LMArena从开源研究项目转变为具备商业化运营能力的企业,可能探索数据分析、定制化评测和企业级报告等商业服务。这一转变让业界担忧,当资本介入、客户需求与市场压力叠加时,LMArena能否保持“开放”与“中立”,其角色是否会从“裁判”变成“利益相关方”。
未来评测走向何方
LMArena的出现并不意味着传统Benchmark过时,静态的Benchmark仍在持续演化。近年来,研究者推出难度更高的版本,如MMLU Pro、BIG - Bench - Hard等,还创造了聚焦细分领域的全新Benchmark,如数学与逻辑领域的AIME 2025、编程领域的SWE - Bench、多智能体领域的AgentBench等。这些新的Benchmark不再只“考知识”,而是模拟模型在真实世界中的工作方式,从单一考试题集演化为庞大而多层次的体系,有的评推理,有的测代码,有的考记忆与交互。
评测也在进一步走向“真实世界”。例如Alpha Arena由创业公司nof1.ai推出,在首轮活动中,选取六大模型在真实的加密货币交易市场中进行对战,给每个模型相同资金和Prompt,让它们独立决策和交易,以实际收益和策略稳定性作为评测依据,结果是DeepSeek获胜。虽这场对战更多是“噱头”,大语言模型预测股市目前不太靠谱,但Alpha Arena的“实战式评测”跳出传统题库和问答框架,让模型在动态、对抗环境中接受检验,被视为继LMArena之后,又一次让AI在开放世界中接受考验的实验。不过,Alpha Arena更偏向特定任务领域的真实验证,结果更难复现与量化。
这些新Arena的出现并非要取代静态Benchmark,而是为其提供一面镜子,将静态测试中难以衡量的人类偏好与语义细节重新引入评测系统。未来的模型评估更可能是静态Benchmark和Arena融合的评测框架,静态benchmark提供可复现、可量化的标准,Arena提供动态、开放、面向真实交互的验证,两者结合构成衡量智能的完整坐标系。
朱邦华认为,随着大模型能力提升,原有测试集“太简单”问题突出,Arena的自动难度过滤有阶段性解决方案,但真正方向是由人类专家与强化学习环境共同推动的高难度数据建设。随着模型变强,“简单”定义也在变化,需要人类专家标注更难的数据作为Benchmark,也需要建立兼顾统计有效性与人类偏好的聚合框架。
未来评测的关键在于数据质量和基准选择。高质量的数据是连接模型训练和评测的中轴,需要找人类专家标注更难的数据,构造更难的训练数据和评估数据。研究者不仅要“造benchmark”,更要学会“选benchmark”,在众多数据集中筛选、组合与聚合,建立兼顾统计有效性与人类偏好的聚合框架。
正如OpenAI研究员姚顺雨所说,AI的上半场是“如何训练模型”,下半场是“如何定义与衡量智能”。评测不再只是AI模型性能的终点,而成为AI向前发展的“核心科学”。目前虽无法确定最优评估方法,但这是一场持续实验,要在众多benchmark中找到有价值的任务,在类似LMArena的“竞技场”中捕捉人类偏好信号,结合成动态、开放、可信的智能测量体系,最终探索“智能,究竟是什么”。
作者:杏鑫娱乐
新闻资讯 News
- 电商领域税务风险需注意的要点11-01
- 中国创新药:从跟跑到突围,一场...11-01
- 理想致歉了,但用户对新能源车的...11-01
- 谁是AI之王?大模型评测的变革与...11-01

