设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

月之暗面Kimi模型升级:200万字窗口版可申请,新增“继续”功能

2024-03-26 17:05:38 来源: 量子位

多模态模型年内推出dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

衡宇 发自 凹非寺dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

量子位 | 公众号 QbitAIdCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

继2月以投后约25亿美金估值炸场后,杨植麟的大模型公司月之暗面终于有了一次公开对媒体的活动。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

虽然杨植麟本人并未露面,但是发布了更长上下文窗口的版本dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

200万字上下文版本,今天即刻在Kimi上开启内测。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

并且在与Kimi对话过程中,加入了(不打断模型思路的)“继续”功能按钮。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

月之暗面Kimi模型升级:200万字窗口版可申请,新增“继续”功能

月之暗面工程副总裁许欣然(同时也是Infra负责人)在会议室咚、咚、咚把好几摞厚厚的打印纸重重地放在桌面上,分别是打印出来的《中医中医内科学》《中医诊断学》、英伟达2023年年度财报、《甄嬛传》剧本版。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

一摞比一摞厚。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

现场放话:“欢迎大家体验”。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

月之暗面Kimi模型升级:200万字窗口版可申请,新增“继续”功能

去年10月,月之暗面第一次公开亮相,发布了20万字上下文窗口的Kimi模型。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

5个月过去——5个月,对AI世界已经是非常久的时间了,Kimi主要在3个方面有所提升:dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • 遵循更复杂的指令
  • 更强的信息检索能力
  • 网页版、Android、iOS、小程序

提出“Kimi 10分钟速成定律”

此次月之暗面最主要的动作,就是将自家模型的上下文窗口提升了一个数量级。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

即从发布之初的20万字,拓展到200万字。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

同时据许欣然透露,5个月过去,相同成本、相同设备情况下,模型响应速度提升了3倍左右。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

为了达到更好的长窗口无损压缩性能,月之暗面的研发和技术团队从模型预训练到对齐、推理环节均进行了原生的重新设计和开发,不走“滑动窗口”、“降采样”等技术捷径,攻克了很多底层技术难点。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

200万字上下文窗口,意味着Kimi模型能够吃下更长的文档内容,完成更长和更复杂的任务。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

包括但不限于,快速整理N多文件,如从500份简历中提取信息:dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

月之暗面Kimi模型升级:200万字窗口版可申请,新增“继续”功能

现场月之暗面还提出了“Kimi 10分钟速成定律”。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

即无关领域大众小众,也无关资料或多或少,只要把资料一股脑丢给模型,10分钟内,Kimi都能快速入门一个新领域。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

比如德州扑克、中医内科、开(某个特定型号的)飞机、大模型推理……dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

月之暗面Kimi模型升级:200万字窗口版可申请,新增“继续”功能

现场还演示了Kimi模型挖掘长篇故事情节中深层次信息的能力。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

案例自然是被人类开发程度不足10%的甄嬛传(笑死)。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

月之暗面Kimi模型升级:200万字窗口版可申请,新增“继续”功能

值得注意的是,月之暗面在媒体沟通会现场提出了一个新说法,即大模型们最近的新竞速赛道,“大海捞针”功能,恐怕全绿也没什么太大意义了dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最初,大海捞针其实是一个非常好的评测标准,因为当时大家都没有针对这个case去优化过。
但现在它已经不是一个很好的评测指标了,当大家都去关注它的时候,就一定会想尽办法去优化它,慢慢就失去了原本的参考意义。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

如果大海捞针不行了,有什么新的评测标准能够检测模型长文本能力吗?dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

“暂时还没有。”许欣然笑道。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

他表示,模型窗口越来越长,评测的纬度变得非常非常多,不过团队已经在和学术界团队共同探讨这个开放性的问题。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

月之暗面Kimi模型升级:200万字窗口版可申请,新增“继续”功能

期望打造“个人麦肯锡”

从20万字上下文窗口,迭代为今天开始内测的200万字上下文窗口,具体的模型应用场景又有什么新的亮眼之处?会不会只是从“处理50封简历”到“处理500封简历”的简单线性外扩?dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

一味拓展大模型上下文窗口的边界,会不会打造出一把普通人想象中的“皇帝的金锄头”?dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

“实际上,可能会不断地出现更多的现实场景,只有足够长的context才能完成。”月之暗面表示,在200万字版本推出后,接下来Kimi模型会在以下几个方向发展:dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

第一,领域专家。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

利用长文本能力吃掉一个领域里几乎所有的相关资料,使调研一个行业成为简单的事情。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

第二,可完成复杂多步任务的Agent,月之暗面内部称之为“个人麦肯锡”。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

希望模型未来不只是像能处理“帮我翻译一下这个PDF”这类非常具体的任务,也能自动完成抽象、复杂的任务。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

第三,多模态能力。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Context长了之后,Kimi模型可以容纳更多高清的、时间更长的这种视频,从而让我们模型很方便地去拓展到更多的模态。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

据月之暗面联合创始人周昕宇现场的答复,Sora出来以前,月之暗面就在根据自己的节奏推进多模态能力的研发,Sora的出现也并没有打乱原有的安排。dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

“预计今年会推出我们自己的多模态模型/产品。”dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

月之暗面Kimi模型升级:200万字窗口版可申请,新增“继续”功能

One More Thing

最后,他家大模型还悄么声地改名了:dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Kimi Chat➡️Kimi智能助手dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Moonshot大模型➡️Kimi大模型dCh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:月之暗面Kimi模型升级:200万字窗口版可申请,新增“继续”功能http://www.llsum.com/show-2-4203-0.html

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 月销量为0?越野奶爸车回应了

下一篇: 马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜