设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

IDC、智源最新一期大模型评测结果出炉

2024-06-19 15:38:31 来源: 中国科学报

 EmV流量资讯——探索最新科技、每天知道多一点LLSUM.COM

6月17日记者获悉,由北京智源研究院(以下简称智源)打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示,百度文心大模型、字节跳动“云雀”和“豆包”大模型的综合评分在闭源对话模型中位列前三,GPT-4o、百川、零一万物、kimi等紧随其后。EmV流量资讯——探索最新科技、每天知道多一点LLSUM.COM

智源FlagEval榜单截图。 来源:智源EmV流量资讯——探索最新科技、每天知道多一点LLSUM.COM

据了解,FlagEval天秤大模型评测平台是北京智源研究院推出的开放的大模型评测体系,自2023年发布以来,该评测平台已从主要面向语言模型扩展到视频、语音、多模态模型,实现多领域全覆盖,目前已评测国内外 300 余个开源和商业闭源的语言及多模态大模型。资料显示,FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。6月的评测结果显示,在中文语境下,文心大模型等国内头部语言模型的综合表现出色。
EmV流量资讯——探索最新科技、每天知道多一点LLSUM.COM

就在上周,国际数据公司(IDC)发布的《中国大模型市场主流产品评估,2024》中,百度文心一言、阿里通义千问和OpenAI GPT-4等也位于第一梯队,其中,百度是唯一一家在问答理解类、推理类、创作表达类、数学类、代码类的基础能力,toC通用场景类、toB特定行业类的应用能力等7个维度上均为“优势厂商”的企业。阿里获6项优势维度,OpenAI GPT-4和商汤分获5项。EmV流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  ?EmV流量资讯——探索最新科技、每天知道多一点LLSUM.COM

截图自IDC《中国大模型市场主流产品评估,2024》。EmV流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:IDC、智源最新一期大模型评测结果出炉http://www.llsum.com/show-11-7354-0.html

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 中国科大人工智能与人形机器人前沿论坛举行

下一篇: 灵长类动物研究显示:Y染色体进化速度快于X染色体

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜