设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五

2024-04-23 15:17:55 来源: 量子位

Llama 3英文能力与GPT-4并列第一TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

克雷西 发自 凹非寺TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM
量子位 | 公众号 QbitAI

关于Llama 3,又有测试结果新鲜出炉——TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

大模型评测社区LMSYS发布了一份大模型排行榜单,Llama 3位列第五,英文单项与GPT-4并列第一。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不同于其他Benchmark,这份榜单的依据是模型一对一battle,由全网测评者自行命题并打分。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最终,Llama 3取得了榜单中的第五名,排在前面的是GPT-4的三个不同版本,以及Claude 3超大杯Opus。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

而在英文单项榜单中,Llama 3反超了Claude,与GPT-4打成了平手。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对于这一结果,Meta的首席科学家LeCun十分高兴,转发了推文并留下了一个“Nice”。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

PyTorch之父Soumith Chintala也激动地表示,这样的成果令人难以置信,对Meta感到骄傲。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Llama 3的400B版本还没出来,单靠70B参数就获得了第五名……TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM
我还记得去年三月GPT-4发布的时候,达到与之相同的表现几乎是一件不可能的事。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM
……TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM
现在AI的普及化实在是令人难以置信,我对Meta AI的同仁们做出这样的成功感到非常骄傲。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

那么,这份榜单具体展示了什么样的结果呢?TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

近90个模型对战75万轮

截至最新榜单发布,LMSYS共收集了近75万次大模型solo对战结果,涉及的模型达到了89款。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

其中,Llama 3参与过的有1.27万次,GPT-4则有多个不同版本,最多的参与了6.8万次。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

下面这张图展示了部分热门模型的比拼次数和胜率,图中的两项指标都没有统计平局的次数。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

榜单方面,LMSYS分成了总榜和多个子榜单,GPT-4-Turbo位列第一,与之并列的是早一些的1106版本,以及Claude 3超大杯Opus。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

另一个版本(0125)的GPT-4则位列其后,紧接着就是Llama 3了。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过比较有意思的是,较新一些的0125,表现还不如老版本1106。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

而在英文单项榜单中,Llama 3的成绩直接和两款GPT-4打成了平手,还反超了0125版本。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

中文能力排行榜的第一名则由Claude 3 Opus和GPT-4-1106共享,Llama 3则已经排到了20名开外。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

除了语言能力之外,榜单中还设置了长文本和代码能力排名,Llama 3也都名列前茅。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过,LMSYS的“游戏规则”又具体是什么样的呢?TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

人人都可参与的大模型评测

这是一个人人都可以参与的大模型测试,题目和评价标准,都由参与者自行决定。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

而具体的“竞技”过程,又分成了battle和side-by-side两种模式。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

battle模式下,在测试界面输入好问题之后,系统会随机调用库中的两个模型,而测试者并不知道系统到底抽中了谁,界面中只显示“模型A”和“模型B”。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

在模型输出答案后,测评人需要选择哪个更好,或者是平手,当然如果模型的表现都不符合预期,也有相应的选项。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

只有在做出选择之后,模型的身份才会被揭开。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

side-by-side则是由用户选择指定的模型来PK,其余测试流程与battle模式相同TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过,只有battle的匿名模式下的投票结果才会被统计,且在对话过程中模型不小心暴露身份就会导致结果失效。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

按照各个模型对其他模型的Win Rate,可以绘制出这样的图像:TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

示意图,较早版本

而最终的排行榜,是利用Win Rate数据,通过Elo评价系统换算成分数得到的。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Elo评价系统是一种计算玩家相对技能水平的方法,由美国物理学教授Arpad Elo设计。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

具体到LMSYS,在初始条件下,所有模型的评分(R)都被设定为1000,然后根据这样的公式计算出期待胜率(E)。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

随着测试的不断进行,会根据实际得分(S)对评分进行修正,S有1、0和0.5三种取值,分别对应获胜、失败和平手三种情况。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

修正算法如下式所示,其中K为系数,需要测试者根据实际情况调整。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最终将所有有效数据纳入计算后,就得到了模型的Elo评分。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过实际操作过程中,LMSYS团队发现这种算法的稳定性存在不足,于是又采用了统计学方法进行了修正。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

他们利用Bootstrap方法进行重复采样,得到了更稳定的结果,并估计了置信度区间。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最终修正后的Elo评分,就成了榜单中的排列依据。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

One More Thing

Llama 3已经可以在大模型推理平台Groq(不是马斯克的Grok)上跑了。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

这个平台的最大亮点就是“快”,之前用Mixtral模型跑出过每秒近500 token的速度。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

跑起Llama 3,也是相当迅速,实测70B可以跑到每秒约300 Token,8B版本更是接近了800。TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

参考链接:TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[1]https://lmsys.org/blog/2023-05-03-arena/TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[2]https://chat.lmsys.org/?leaderboardTKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[3]https://twitter.com/lmsysorg/status/1782483699449332144TKQ流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五http://www.llsum.com/show-2-5308-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 1966年杨成武汇报部队建设,毛主席突然插话说 曾国藩杀人很厉害(1966年杨成武汇报部队建设)

下一篇: 黑照变废为宝!超能AI一句话修出创意大片,亲妈看了都说真

热门资讯

  • 多功能金纳米花颗粒 可促进感染性组织修复

    3月17日,记者从海南大学获悉,该校化学化工学院副教授李萌婷与相关研究团队合作,合成了多功能复合金纳米花颗粒。该颗粒配合温和光热、光动力、药物控

  • 监管AI,欧盟出手,美国掉队?

      监管AI,欧盟出手,美国掉队?  上个世纪,科幻小说家艾萨克・阿西莫夫提出了“机器人三定律”,带来了对“机器人”与“规则”的美好幻想。  如今,伴随着ChatGPT、Sora的爆火,

  • AI领域,重磅消息传来!

    AI领域,一则重磅消息传来!最新消息,全球最知名的AI公司——OpenAI将在几个月内发布新版大型语言模型GPT-5,性能将有大幅跃升。目前,ChatGPT使用

  • Sora将如何影响科学与社会

    英国《自然》周刊网站3月12日刊登题为《OpenAI的文生视频工具Sora会如何改变科学——以及社会》的文章,作者为乔纳森·奥卡拉汉,内

  • CRISPR能消除培养细胞中艾滋病病毒

    荷兰阿姆斯特丹大学医学院科学家开展的一项新研究证明,利用最新CRISPR-Cas基因编辑技术,能消除实验室中受感染细胞内所有艾滋病病毒(HIV)的痕迹,为治愈

  • 我科学家实现最小资源消耗的量子态分辨

    记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展。研究组在最小资源消耗的量子态分辨问题中首次提出了全局

  • 原来,中国空间站里“四季如春”

    春,推也。从草从日,草春时生也。进入春日,人们时常能在大地回暖、万物复苏中见证旺盛的生命力。一起解锁空间站里的“春日关键词”,感受太空中的“春日

  • Sora带来的深层次影响值得关注

    2024年2月,OpenAI公司推出了文生视频人工智能(AI)模型Sora。OpenAI展示了Sora利用少量简短文字提示即可创建逼真视频的能力,并提供了包括一位女士在闪

  • “AI热潮”有人欢喜又有人忧:新兴市场遭资金外流!

      “AI热潮”有人欢喜又有人忧:新兴市场遭资金外流!  财联社3月20日讯(编辑 黄君芝)巴西亿万富翁、巴西金融公司Banco BTG Pactual SA创始人Andre Esteves表示,人工智能(AI

  • 2999元!卢伟冰:xiaomiCivi 4 Pro可能是2024年最轻薄的电话

    3月22日消息,xiaomi集团的卢伟冰在微博上表示,xiaomiCivi 4 Pro有可能是2024年最轻薄的电话。这款电话的厚度仅为7.45mm,重量为179.3g。尽管拥有超轻薄的

  • 英国2026年试飞电动“飞的”

    据英国《每日电讯报》网站3月18日报道,根据英国政府的新航空计划,首批电动飞行出租车将于2026年试飞。周一发布的《“飞行未来”行动计划》为飞行出

  • 人工智能大模型赋能企业科技创新研讨会召开

    3月21日,人工智能大模型赋能企业科技创新研讨会在广州召开。中国知网在会议期间发布了专利大数据智能应用产品“AI Pat+”。据中国知网相关负责人介

推荐资讯

  • 日榜
  • 周榜
  • 月榜