设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五

2024-04-23 15:17:55 来源: 量子位

Llama 3英文能力与GPT-4并列第一lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

克雷西 发自 凹非寺lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM
量子位 | 公众号 QbitAI

关于Llama 3,又有测试结果新鲜出炉——lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

大模型评测社区LMSYS发布了一份大模型排行榜单,Llama 3位列第五,英文单项与GPT-4并列第一。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不同于其他Benchmark,这份榜单的依据是模型一对一battle,由全网测评者自行命题并打分。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最终,Llama 3取得了榜单中的第五名,排在前面的是GPT-4的三个不同版本,以及Claude 3超大杯Opus。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

而在英文单项榜单中,Llama 3反超了Claude,与GPT-4打成了平手。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对于这一结果,Meta的首席科学家LeCun十分高兴,转发了推文并留下了一个“Nice”。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

PyTorch之父Soumith Chintala也激动地表示,这样的成果令人难以置信,对Meta感到骄傲。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Llama 3的400B版本还没出来,单靠70B参数就获得了第五名……lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM
我还记得去年三月GPT-4发布的时候,达到与之相同的表现几乎是一件不可能的事。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM
……lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM
现在AI的普及化实在是令人难以置信,我对Meta AI的同仁们做出这样的成功感到非常骄傲。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

那么,这份榜单具体展示了什么样的结果呢?lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

近90个模型对战75万轮

截至最新榜单发布,LMSYS共收集了近75万次大模型solo对战结果,涉及的模型达到了89款。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

其中,Llama 3参与过的有1.27万次,GPT-4则有多个不同版本,最多的参与了6.8万次。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

下面这张图展示了部分热门模型的比拼次数和胜率,图中的两项指标都没有统计平局的次数。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

榜单方面,LMSYS分成了总榜和多个子榜单,GPT-4-Turbo位列第一,与之并列的是早一些的1106版本,以及Claude 3超大杯Opus。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

另一个版本(0125)的GPT-4则位列其后,紧接着就是Llama 3了。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过比较有意思的是,较新一些的0125,表现还不如老版本1106。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

而在英文单项榜单中,Llama 3的成绩直接和两款GPT-4打成了平手,还反超了0125版本。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

中文能力排行榜的第一名则由Claude 3 Opus和GPT-4-1106共享,Llama 3则已经排到了20名开外。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

除了语言能力之外,榜单中还设置了长文本和代码能力排名,Llama 3也都名列前茅。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过,LMSYS的“游戏规则”又具体是什么样的呢?lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

人人都可参与的大模型评测

这是一个人人都可以参与的大模型测试,题目和评价标准,都由参与者自行决定。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

而具体的“竞技”过程,又分成了battle和side-by-side两种模式。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

battle模式下,在测试界面输入好问题之后,系统会随机调用库中的两个模型,而测试者并不知道系统到底抽中了谁,界面中只显示“模型A”和“模型B”。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

在模型输出答案后,测评人需要选择哪个更好,或者是平手,当然如果模型的表现都不符合预期,也有相应的选项。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

只有在做出选择之后,模型的身份才会被揭开。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

side-by-side则是由用户选择指定的模型来PK,其余测试流程与battle模式相同lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过,只有battle的匿名模式下的投票结果才会被统计,且在对话过程中模型不小心暴露身份就会导致结果失效。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

按照各个模型对其他模型的Win Rate,可以绘制出这样的图像:lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

示意图,较早版本

而最终的排行榜,是利用Win Rate数据,通过Elo评价系统换算成分数得到的。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Elo评价系统是一种计算玩家相对技能水平的方法,由美国物理学教授Arpad Elo设计。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

具体到LMSYS,在初始条件下,所有模型的评分(R)都被设定为1000,然后根据这样的公式计算出期待胜率(E)。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

随着测试的不断进行,会根据实际得分(S)对评分进行修正,S有1、0和0.5三种取值,分别对应获胜、失败和平手三种情况。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

修正算法如下式所示,其中K为系数,需要测试者根据实际情况调整。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最终将所有有效数据纳入计算后,就得到了模型的Elo评分。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过实际操作过程中,LMSYS团队发现这种算法的稳定性存在不足,于是又采用了统计学方法进行了修正。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

他们利用Bootstrap方法进行重复采样,得到了更稳定的结果,并估计了置信度区间。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最终修正后的Elo评分,就成了榜单中的排列依据。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

One More Thing

Llama 3已经可以在大模型推理平台Groq(不是马斯克的Grok)上跑了。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

这个平台的最大亮点就是“快”,之前用Mixtral模型跑出过每秒近500 token的速度。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

跑起Llama 3,也是相当迅速,实测70B可以跑到每秒约300 Token,8B版本更是接近了800。lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

图片lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

参考链接:lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[1]https://lmsys.org/blog/2023-05-03-arena/lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[2]https://chat.lmsys.org/?leaderboardlcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM
[3]https://twitter.com/lmsysorg/status/1782483699449332144lcE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五http://www.llsum.com/show-2-5308-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 1966年杨成武汇报部队建设,毛主席突然插话说 曾国藩杀人很厉害(1966年杨成武汇报部队建设)

下一篇: 黑照变废为宝!超能AI一句话修出创意大片,亲妈看了都说真

热门资讯

  • 量子计算机能更好解决组合优化问题

    旅行推销员问题是一个经典的数学问题,也是一个组合优化问题。德国柏林弗雷大学和亥姆霍兹柏林能源与材料研究中心(HZB)科学家开展的一项新研究证明,量

  • 新疗法可有效治疗多发性骨髓瘤

    据埃菲社报道,多发性骨髓瘤是成年人中继淋巴瘤之后第二常见的血液肿瘤。最近,西班牙的一个科研团队开发出了一种新的免疫疗法来对抗它。实验室实验表

  • CRISPR能消除培养细胞中艾滋病病毒

    荷兰阿姆斯特丹大学医学院科学家开展的一项新研究证明,利用最新CRISPR-Cas基因编辑技术,能消除实验室中受感染细胞内所有艾滋病病毒(HIV)的痕迹,为治愈

  • 借AI“慧眼”鉴别可疑论文图片

    今年1月,英国分子生物学家肖尔托·戴维发表文章,指控美国哈佛大学医学院附属丹娜-法伯癌症研究所科学家通过修改图片伪造数据。随后该研究所正

  • 来看金星土星“亲密一刻”

    3月22日黎明,太阳系中最明亮的行星金星与太阳系中拥有最多卫星的行星土星将在东南方低空近距离相伴,上演“结伴游”。北京星空摄影爱好者王俊峰2023

  • 我国首个制氢加氢一体站团体标准发布

    我国制氢加氢一体站建设有了团体标准。记者从中国石化获悉,为推动我国氢能交通产业发展,中国石化联合国内数十家氢能头部企业发布了国内首个《制氢加

  • 国家工程师丨锻造能“听”清眼疾的高精设备

    眼眸深邃似海、璨如星河,中国医学科学院生物医学工程研究所眼科诊疗技术研发团队(以下简称“团队”)正是眼眸“侦探”。该团队不久前被授予“国家卓越

  • 联想与英伟达推出全新混合AI解决方案

    在近日举行的全球AI盛会GTC(GPU Technology Conference)2024上,联想集团与NVIDIA(英伟达)宣布合作推出全新混合人工智能解决方案,帮助企业和云提供商获得

  • 企业联合遥感数据平台 加速遥感应用迈向普惠时代

    记者3月21日获悉,商汤科技与遥感数据平台吉林一号网、四维地球、星图地球等展开合作,此举标志着“SenseEarth智能遥感云”平台数据源全面升级,将为行

  • “认知选择”或影响人类语言演化

    人类的语言自产生以来,就不断演化发展。发音、词汇、语法的演变过程,是语言学家较为关注的领域。语言演化的根本动力是什么,演化又呈现出怎样的规律?我

  • 首发第三代骁龙7+!一加Ace 3V图赏

    3月22日消息,一加Ace 3V昨晚发布,起售价1999元,将于3月25日正式发售。现在这款新机已经来到我们评测室,下面为大家带来图赏。一加Ace 3V全球首发第三代骁龙

  • 外媒:夏普拟缩小液晶业务,旗下显示器或停产

      中新经纬3月22日电 据《日本经济新闻》22日报道,夏普正在讨论缩小液晶显示器业务,夏普已将子公司显示器(SDP、位于市)停产纳入视野。显示器业务持续陷入苦战,成为夏普在202

推荐资讯

  • 日榜
  • 周榜
  • 月榜