设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

苹果开源7B大模型,训练过程数据集一口气全给了,网友:开放得不像苹果

2024-07-23 16:34:02 来源:

声明:本文来自微信公众号“量子位”,作者:一水,,授权转载发布。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

苹果最新杀入开源大模型战场,而且比其他公司更开放。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

推出7B模型,不仅效果与Llama38B相当,而且一次性开源了全部训练过程和资源。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

要知道,不久前Nature杂志编辑Elizabeth Gibney还撰文批评:hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

许多声称开源的AI模型,实际上在数据和训练方法上并不透明,无法满足真正的科学研究需求。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

而苹果这次竟然来真的!!hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

就连NLP科学家、AutoAWQ创建者也发出惊叹:hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Apple发布了一个击败Mistral7B的模型,但更棒的是他们完全开源了所有内容,包括预训练数据集!hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

也引来网友在线调侃:hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

至于这次开源的意义,有热心网友也帮忙总结了:hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对于任何想要从头开始训练模型或微调现有模型的人来说,数据管理过程是必须研究的。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

当然,除了OpenAI和苹果,上周Mistral AI联合英伟达也发布了一个12B参数小模型。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

HuggingFace创始人表示,小模型周来了!hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

卷!继续卷!所以苹果这次发布的小模型究竟有多能打?hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

效果直逼Llama38B

有多能打先不说,先来看Hugging Face技术主管刚“拆箱”的模型基础配置。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

总结下来就是:hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • 7B基础模型,在开放数据集上使用2.5T tokens进行训练hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • 主要是英文数据,拥有2048tokens上下文窗口hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • 数据集包括DCLM-BASELINE、StarCoder和ProofPile2hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • MMLU得分接近Llama38BhC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • 使用PyTorch和OpenLM框架进行训练hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

具体而言,研究团队先是提出了一个语言模型数据比较新基准——DCLM。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

之所以提出这一基准,是因为团队发现:hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

由机器学习 (ML) 模型从较大的数据集中自动过滤和选择高质量数据,可能是构建高质量训练集的关键。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

因此,团队使用DCLM来设计高质量数据集从而提高模型性能,尤其是在多模态领域。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

其思路很简单:使用一个标准化的框架来进行实验,包括固定的模型架构、训练代码、超参数和评估,最终找出哪种数据整理策略最适合训练出高性能的模型。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

基于上述思路,团队构建了一个高质量数据集DCLM-BASELINE,并用它从头训练了一个7B参数模型——DCLM-7B。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

DCLM-7B具体表现如何呢?hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

结果显示,它在MMLU基准上5-shot准确率达64%,可与Mistral-7B-v0.3(63%)和Llama38B(66%)相媲美;并且在53个自然语言理解任务上的平均表现也可与Llama38B相媲美,而所需计算量仅为后者的1/6。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

与其他同等大小模型相比,DCLM-7B的MMLU得分超越Mistral-7B,接近Llama38B。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最后,为了测试新数据集效果,有业内人士用卡帕西的llm.c训练了GPT-21.5B,来比较DCLM-Baseline与FineWeb-Edu这两个数据集。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

结果显示DCLM-Baseline取得了更高的平均分,且在ARC(小学生科学问题推理)、HellaSwag(常识推理)、MMLU等任务上表现更好。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

“小”模型成新趋势

回到开头,“小”模型最近已成新趋势。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

先是HuggingFace推出了小模型家族“SmolLM”,其中包含135M、360M和1.7B型号模型。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

它们在广泛的推理和常识基准上优于类似大小的模型。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然后OpenAI突然发布了GPT-4o mini,不仅能力接近GPT-4,而且价格大幅下降。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

就在GPT-4o mini发布同日,Mistral AI联合英伟达发布了12B参数小模型——Mistral NeMo。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

从整体性能上看,Mistral NeMo在多项基准测试中,击败了Gemma29B和Llama38B。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

所以,为啥大家都开始卷小模型了?hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

原因嘛可能正如smol AI创始人提醒的,虽然模型变小了,但在能力相近的情况下,小模型大大降低了成本。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

就像他提供的这张图,以GPT-4o mini为代表的小模型整体比右侧价格更低。hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对此,我等吃瓜群众be like:hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

所以,你更看好哪家呢?(欢迎评论区讨论留言)hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

模型地址:hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

https://huggingface.co/apple/DCLM-7BhC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

GitHub:hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

https://github.com/mlfoundations/dclmhC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

数据集地址:hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

参考链接:hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

[1]https://x.com/Yuchenj_UW/status/1813260100192334108hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

[2]https://x.com/casper_hansen_/status/1814269340100751382hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

[3]https://x.com/_philschmid/status/1814274909775995087hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

[4]https://x.com/LoubnaBenAllal1/status/1813252390692303069hC3流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:苹果开源7B大模型,训练过程数据集一口气全给了,网友:开放得不像苹果http://www.llsum.com/show-3-29253-0.html

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 蒋敦豪发长文回应加人争议 爱奇艺真人秀《种地吧》导演致歉_蒋敦豪综艺节目

下一篇: 国产本地大模型工具FlashAI发布企业版,一台部署,内网所有电脑可用

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜