一个来自中国的开源模型,在开年之际聚焦了人工智能(AI)行业的目光。
日前,杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)上线并同步开源DeepSeek-V3模型,同时公布长达53页的技术报告,介绍关键技术和训练细节。
和很多语焉不详的报告相比,这份报告真正做到了开源。其中最抓人眼球的部分是,V3模型能力大幅升级,但训练仅仅花费557.6万美元,仅用2048块H800显卡,耗时不到两个月。
美国人工智能初创公司Anthropic首席执行官达里奥·阿莫迪曾透露,GPT-4o的模型训练成本约为1亿美元。美国开放人工智能研究中心(OpenAI)创始成员之一安德烈·卡帕西点评,DeepSeek-V3让在有限算力预算内进行模型预训练这件事变得容易。
深度求索如何实现“花小钱办大事”?它是否走出了大模型发展的一条新路?
降低模型推理成本
深度求索一直是国内AI版图上位置相对独特的一家——它是唯一没有做2C(面向个人消费者)应用的公司,选择开源路线,至今没有融过资。
去年5月,深度求索发布DeepSeek-V2,以其创新的模型架构和史无前例的性价比爆火。模型推理成本被降至每百万Tokens(大模型用来表示自然语言文本的单位)仅1元钱,约等于开源大模型Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,引发字节、阿里、百度等企业的模型降价潮。
个中关节在于,DeepSeek提出的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse(采用稀疏结构的混合专家模型)结构,大幅降低了模型的计算量和显存占用,实现了高效推理和经济高效的训练。
简单来说,模型压缩、专家并行训练、FP8混合精度训练、数据蒸馏与算法优化等一系列创新技术大幅降低了V3模型成本。作为新兴的低精度训练方法,FP8技术通过减少数据表示所需的位数,显著降低了内存占用和计算需求。据报道,目前,谷歌等已将这项技术引入模型训练与推理中。
深度科技研究院院长张孝荣在接受媒体采访时说,DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可,其通过优化算法和工程实践,实现高性能与低成本的平衡。DeepSeek为整个行业的发展注入活力,也对大模型的技术路径和工程实践产生积极影响,推动高效训练、模型轻量化和工程优化。
有业内人士分析,V3在架构创新、训练效率和推理性能方面展现巨大潜力,尤其在成本和性能的平衡方面作出重要贡献。不过,与此同时,也仍有许多挑战需要解决,如需进一步扩展上下文长度、优化多模态数据处理等。未来的研究方向包括提升模型的推理速度、完善更高效的硬件架构设计,以及增强多模态学习和生成能力。
不堆算力创新算法
大参数、大算力、大投入,这条已经被验证行之有效的ChatGPT路径,实则是绝大部分创业公司难以承受之重。
据报道,仍处于研发过程中的GPT-5,已进行过至少两轮训练,每轮训练耗时数月,一轮计算成本接近5亿美元。一年半过去,GPT-5仍未问世。这意味着,新一代通用大模型的训练成本已达到十多亿美元甚至更高。未来这一数字可能持续攀升。
规模定律(Scaling law)是指在训练大模型时,数据量、参数量和计算资源越多,训练出的模型能力和效果越好。然而,一段时间以来,行业对规模定律可持续性的疑问不绝于耳。
V3的出现提供了新的解法。“Scaling Law不只停留在预训练阶段,而是往后训练,尤其是注重推理领域的后训练集、强化学习等领域扩展。”智源研究院副院长兼总工程师林咏华接受科技日报记者采访时说,这一点在国外以OpenAI o1发布为标志,国内则有DeepSeek使用强化学习训练发布DeepSeek R1这个具有很强挖掘和激活能力的模型。
在林咏华看来,V3的发布,也印证了利用R1可以很好进行能力提升。
行业相关探索还有很多,如Kimi将强化学习用到更多搜索场景,发布以逻辑思考和深度思考为核心功能的数学模型K0-math;蚂蚁技术研究院建立强化学习实验室,围绕如何在后训练及强化学习上进行更多模型能力的探索。林咏华期待,未来不仅是靠堆砌更多算力、参数和数据,而是靠真正的算法创新,持续在后训练阶段帮助模型提升基础能力。
值得注意的是,“省钱模式开启”并不意味着算力式微。
V3发布后,360集团创始人周鸿祎发文称赞“DeepSeek的进步对推动中国AI产业发展是极大利好”,但他也认为,这并非说中国AI发展不需要高端算力芯片。囤显卡建算力集群依旧必要,因为目前预训练算力需求或许没那么大,但像慢思考这类复杂推理模型对推理算力需求大,文生图、文生视频的应用也需消耗大量算力资源。巨头们提供AI云服务,构建庞大算力基础必不可少,这与 DeepSeek 降低训练算力需求是两回事,两者并不矛盾。
一位行业专家在接受记者采访时认为,2025年,大模型行业会进一步收敛,这种收敛既包括技术层面,也包括厂商层面。进入“百模大战”后期,要进一步提高模型计算效率,降低推理成本,对计算的架构分布、利用效率等都提出更为精细化的要求。
“烧钱”不是唯一逻辑
深度求索创始人梁文锋在金融行业征战已久。他成立的幻方量化早在2019年就开始大手笔投入深度学习训练平台。2023年7月,梁文锋创立深度求索,专注AI大模型的研究和开发。
据报道,包括梁文锋在内,深度求索仅有139名工程师和研究人员。在外界看来,这是一支“神秘的东方力量”。
但在一次采访中,梁文锋曾透露,深度求索并没有什么高深莫测的奇才,团队都是国内顶尖高校的应届毕业生,没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。他特别提及,“V2模型没有海外回来的人,都是本土的”。
他也曾在访谈中说,过去30多年的IT浪潮,中国基本上扮演的是追随者角色,“随着经济的发展,中国也应该逐步成为技术创新的主要贡献者”。如今,V3的横空出世贡献了一个更高效率、更低成本的大模型发展样本,也让AI行业看到一种可能:虽然训练大模型依然需要大规模显卡集群,但“烧钱”不是行业唯一的逻辑,也并不是谁烧钱多,谁就注定赢得一切。
对此,周鸿祎评论道,V3用2000块卡做到了万卡集群才能做到的事。用这种极致训练方法训练专业大模型,算力成本会进一步降低,促使中国AI在专业、垂直、场景、行业大模型上更快普及。
一个来自中国的开源模型,在开年之际聚焦了人工智能(AI)行业的目光。
日前,杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)上线并同步开源DeepSeek-V3模型,同时公布长达53页的技术报告,介绍关键技术和训练细节。
和很多语焉不详的报告相比,这份报告真正做到了开源。其中最抓人眼球的部分是,V3模型能力大幅升级,但训练仅仅花费557.6万美元,仅用2048块H800显卡,耗时不到两个月。
美国人工智能初创公司Anthropic首席执行官达里奥·阿莫迪曾透露,GPT-4o的模型训练成本约为1亿美元。美国开放人工智能研究中心(OpenAI)创始成员之一安德烈·卡帕西点评,DeepSeek-V3让在有限算力预算内进行模型预训练这件事变得容易。
深度求索如何实现“花小钱办大事”?它是否走出了大模型发展的一条新路?
降低模型推理成本
深度求索一直是国内AI版图上位置相对独特的一家——它是唯一没有做2C(面向个人消费者)应用的公司,选择开源路线,至今没有融过资。
去年5月,深度求索发布DeepSeek-V2,以其创新的模型架构和史无前例的性价比爆火。模型推理成本被降至每百万Tokens(大模型用来表示自然语言文本的单位)仅1元钱,约等于开源大模型Llama3 70B的七分之一,GPT-4 Turbo的七十分之一,引发字节、阿里、百度等企业的模型降价潮。
个中关节在于,DeepSeek提出的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse(采用稀疏结构的混合专家模型)结构,大幅降低了模型的计算量和显存占用,实现了高效推理和经济高效的训练。
简单来说,模型压缩、专家并行训练、FP8混合精度训练、数据蒸馏与算法优化等一系列创新技术大幅降低了V3模型成本。作为新兴的低精度训练方法,FP8技术通过减少数据表示所需的位数,显著降低了内存占用和计算需求。据报道,目前,谷歌等已将这项技术引入模型训练与推理中。
深度科技研究院院长张孝荣在接受媒体采访时说,DeepSeek的“出圈”是对其在大模型技术上的突破和创新的认可,其通过优化算法和工程实践,实现高性能与低成本的平衡。DeepSeek为整个行业的发展注入活力,也对大模型的技术路径和工程实践产生积极影响,推动高效训练、模型轻量化和工程优化。
有业内人士分析,V3在架构创新、训练效率和推理性能方面展现巨大潜力,尤其在成本和性能的平衡方面作出重要贡献。不过,与此同时,也仍有许多挑战需要解决,如需进一步扩展上下文长度、优化多模态数据处理等。未来的研究方向包括提升模型的推理速度、完善更高效的硬件架构设计,以及增强多模态学习和生成能力。
不堆算力创新算法
大参数、大算力、大投入,这条已经被验证行之有效的ChatGPT路径,实则是绝大部分创业公司难以承受之重。
据报道,仍处于研发过程中的GPT-5,已进行过至少两轮训练,每轮训练耗时数月,一轮计算成本接近5亿美元。一年半过去,GPT-5仍未问世。这意味着,新一代通用大模型的训练成本已达到十多亿美元甚至更高。未来这一数字可能持续攀升。
规模定律(Scaling law)是指在训练大模型时,数据量、参数量和计算资源越多,训练出的模型能力和效果越好。然而,一段时间以来,行业对规模定律可持续性的疑问不绝于耳。
V3的出现提供了新的解法。“Scaling Law不只停留在预训练阶段,而是往后训练,尤其是注重推理领域的后训练集、强化学习等领域扩展。”智源研究院副院长兼总工程师林咏华接受科技日报记者采访时说,这一点在国外以OpenAI o1发布为标志,国内则有DeepSeek使用强化学习训练发布DeepSeek R1这个具有很强挖掘和激活能力的模型。
在林咏华看来,V3的发布,也印证了利用R1可以很好进行能力提升。
行业相关探索还有很多,如Kimi将强化学习用到更多搜索场景,发布以逻辑思考和深度思考为核心功能的数学模型K0-math;蚂蚁技术研究院建立强化学习实验室,围绕如何在后训练及强化学习上进行更多模型能力的探索。林咏华期待,未来不仅是靠堆砌更多算力、参数和数据,而是靠真正的算法创新,持续在后训练阶段帮助模型提升基础能力。
值得注意的是,“省钱模式开启”并不意味着算力式微。
V3发布后,360集团创始人周鸿祎发文称赞“DeepSeek的进步对推动中国AI产业发展是极大利好”,但他也认为,这并非说中国AI发展不需要高端算力芯片。囤显卡建算力集群依旧必要,因为目前预训练算力需求或许没那么大,但像慢思考这类复杂推理模型对推理算力需求大,文生图、文生视频的应用也需消耗大量算力资源。巨头们提供AI云服务,构建庞大算力基础必不可少,这与 DeepSeek 降低训练算力需求是两回事,两者并不矛盾。
一位行业专家在接受记者采访时认为,2025年,大模型行业会进一步收敛,这种收敛既包括技术层面,也包括厂商层面。进入“百模大战”后期,要进一步提高模型计算效率,降低推理成本,对计算的架构分布、利用效率等都提出更为精细化的要求。
“烧钱”不是唯一逻辑
深度求索创始人梁文锋在金融行业征战已久。他成立的幻方量化早在2019年就开始大手笔投入深度学习训练平台。2023年7月,梁文锋创立深度求索,专注AI大模型的研究和开发。
据报道,包括梁文锋在内,深度求索仅有139名工程师和研究人员。在外界看来,这是一支“神秘的东方力量”。
但在一次采访中,梁文锋曾透露,深度求索并没有什么高深莫测的奇才,团队都是国内顶尖高校的应届毕业生,没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。他特别提及,“V2模型没有海外回来的人,都是本土的”。
他也曾在访谈中说,过去30多年的IT浪潮,中国基本上扮演的是追随者角色,“随着经济的发展,中国也应该逐步成为技术创新的主要贡献者”。如今,V3的横空出世贡献了一个更高效率、更低成本的大模型发展样本,也让AI行业看到一种可能:虽然训练大模型依然需要大规模显卡集群,但“烧钱”不是行业唯一的逻辑,也并不是谁烧钱多,谁就注定赢得一切。
对此,周鸿祎评论道,V3用2000块卡做到了万卡集群才能做到的事。用这种极致训练方法训练专业大模型,算力成本会进一步降低,促使中国AI在专业、垂直、场景、行业大模型上更快普及。
本文链接:深度求索大模型:“花小钱办大事”http://www.llsum.com/show-2-10150-0.html
声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 快手年货节促消费,近2.2万主播商品交易总额增速超一倍
下一篇: 科技让环保执法有力度有温度