设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

2024-04-23 15:18:13 来源: 量子位

超70%代码问题,单纯靠基座大模型是解决不了的。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

白交 发自 凹非寺Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

量子位 | 公众号 QbitAIHgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

超70%代码问题,单纯靠基座大模型是解决不了的;Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

未来3-5年,人类50%编程工作可以被替代,有些环节甚至完全自动化。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

蚂蚁集团代码大模型CodeFuse负责人李建国说道。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

当下,AI代码生成领域正在野蛮式生长,巨头涌入,AI员工频频上线企业;首个AI程序员Devin被曝造假…… 面对风起云涌的代码生成变革,李建国给出了这样一个明确论断。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

李建国是谁?Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

清华大学博士,机器学习、深度学习深耕十余年,论文被引万余次。在他的带领下,蚂蚁内部正全面推行AI编程。每周已有超五成程序员使用CodeFuse,目前CodeFuse生成代码整体采纳率为30%,已经属于整个AI编程工具中能力第一梯队,最强Copilot代码整体采纳率差不多在35%。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

而在开源这边,在各社区网站上CodeFuse下载量已经达到170万左右Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

因此不管是学术的权威性,还是产业落地的代表性,李建国博士极具话语权。于是在代码生成模型和产品爆发式发展的当下,量子位同李建国博士展开了进一步交流。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

核心观点如下:Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • 编写代码在整个企业研发过程中所占的比重可能连1/5,甚至1/10都不到;
  • 要实现项目级的需求实现,从原子级需求端到端渐进发展的模式是切实可行的;
  • AI程序员成为企业运营中的新常态已经是势不可挡的趋势;
  • 超70%代码问题,单纯靠基座大模型是解决不了的;
  • 目前自然语言编程处于L2.5阶段,按照万物摩尔定律的发展趋势,未来3-4年达到L3,甚至接近L4的水平是有可能的。
  • 相较于前、后端的软件工程师,AI全栈工程师需求更大
  • 当前代码生成变革所面对的挑战包括:端到端代码生成能力、Agent推理能力、复杂需求拆解、跨模态横向交互、安全可信可靠。

编写代码只占整个研发生命周期1/5不到

首先,程序员这个行业历史并不算长,从20世纪50年代至今,大约有七八十年的历史。随着技术的进步,编程工具不断更新迭代(打孔- VI编辑器-集成开发环境-辅助编程工具),程序员的工作效率得到了显著提升。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

来到大模型时代,相关模型和产品演化迭代十分迅速,可以说十分的“卷”。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对个人开发者而言,AI编程工具只需完成从需求到代码实现的闭环过程就够了,就像Copilot这样的工具。他们更倾向于关注如何高效地实现需求Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

但从企业维度则更关注整个研发流程的效率提升,除了关注代码生成的安全可靠可信,测试构建、发布运维以及数据洞察等方面也是至关重要的。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我们期望能够有一个研发智能体,甚至是一个智能总线(bus),它能够与各个Agent进行交互,并将任务分发下去——从架构设计到前端实现,再到后端开发,以及安全测试和功能测试,最后是效能方面的持续集成/持续部署(CICD)和运维自动化。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

整个系统上线后,还能够自动进行运维布控,并分析产品的用户访问量(UV)、页面浏览量(PV)等数据。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

编写代码在整个过程中所占的比重可能连五分之一或十分之一都不到。但如果这样的Agent能将所有环节高效连接起来,从而真正提升整个流程的效率。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

再加上当前程序员实际所面临的痛点在于,市面上一些产品大多是原子级能力的实现——通过单体大模型只能解决30%的代码补全,无法解决更多的代码问题,比如跨库的函数调用。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

基于这样的行业思考,去年9月份开始,我们开源了CodeFuse,并明确提出要构建全生命周期的代码大模型Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

目前,我们已经发布基础模型,并持续开发和开源相关的仓库,涵盖了从需求设计、编程开发、测试构建、发布运维、到数据洞察分析等多个方面,在modelscope和huggingface上模型下载量已经达到170万左右Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

下一步,我们计划进行项目级的需求实现,这相当于去实现一个全新的系统。这对基础模型提出更高的要求——Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

自然语言理解的能力至少达到GPT-4或GPT-4.5的水平。但从目前的情况来看,我们更倾向于采取一种渐进的模式。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我们首个MileStone是解决仓库内及跨仓库的需求实现问题,包括API调用、服务调用,以及涉及到的外部中间件版本更新问题。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

如果我们能够妥善处理这些问题,就能解决刚才提到的70%问题中很大一部分(比如20%的问题),这将显著提高代码采纳率,并让用户感到满意。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最终要实现项目级别的需求任重而道远。我认为,代码基础模型和Agent技术需要同步快速发展,才能达到我们的目标。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我们的思路相对保守,因为就基础模型的要求而言,我认为短期内国内要达到GPT水平还存在一定差距。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

大模型对软件开发的范式改变

AI程序员成为企业运营中的新常态已经成为势不可挡的趋势。不管是像Devin这种AI程序员,还是我们提到的全生命周期研发智能体,大模型对整个软件研发范式都是非常大的提效。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

过去遇到不懂的问题,人们可能首先会去Google或百度上搜索,而现在,他们可以直接在代码中提问,随即获得一个相对精确的结果,采纳后即可使用。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我认为这是一个巨大的效率提升,它代表着进步。人们可以将更多的精力释放出来,投入到更具创造性的工作中去。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

前段时间,CodeFuse发布了图生代码的功能,它可以通过在界面上简单画一个框,就能自动生成相应的代码。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

以往可能需要编写数百行代码的工作,现在只需一次点击和画框操作就能实现。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

而要从产品设计的角度来看,我认为实现无缝接入和无感体验是至关重要的Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

这意味着产品应能平滑地融入现有的工作模式中,用户在使用过程中几乎不会意识到它的存在,从而极大地提升用户体验,并推动整个研发流程的创新和进步。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

例如,我们内部每周有超过一万人的智能代码生成活跃用户,很多人都没意识到自己在使用CodeFuse,在日常使用IDE插件、浏览器的过程中,用户已经不知不觉地使用了我们的产品。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我们的目标是服务于整个研发的全生命周期。如果能够实现这一点,那将是一个革命性的成功。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

现在AI写代码相当于L2.5

目前整个代码生成领域,可能处于一个类似于自动驾驶技术中的L2.5级别,许多公司都处于这一水平。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

比如自动驾驶L2.5级别的功能,如车道线辅助、前方碰撞检测等,这些都是作为整体存在的一部分。在大模型领域,也看到了类似的补充功能,包括解释、注释、简化优化和单元测试等。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我们接下来的目标是在某些特定场景下实现L3级别的完全自动化,这是有可能实现的。例如,在效能领域中的持续集成(CICD)场景,就有可能通过大模型的驱动来自动完成,包括触发检查、提交,甚至创建拉取请求(PR)等操作。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然而,要实现全场景、全链路的自动化,前端可能还需要一段时间才能发展起来,复杂的项目级的需求拆解特别是特定领域的拆解,也面临较大挑战。我认为可能还需要3-5年的时间,在万物摩尔定律的推动下,整个社区,包括我们自己的不断努力和发展。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

到那时候,我们可以期待从当前的状态发展到一个新的阶段——Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

例如,从Copilot到co-worker,现在可能有20%到30%的编程工作可以被替代,未来这个比例可能会提高到50%,甚至有些环节可以完全被自动化取代,释放人去做更有创意的工作。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

甚至成为一个full agent。虽然可能无法完全替代人类,但在未来3-5年内,达到L3甚至接近L4的水平是有可能的。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

正如自动驾驶技术一样,虽然已经提出很多年,许多人声称已经达到L4级别,但实际上许多场景仍然处于L2.5到L3级别。要实现全场景的自动化,人类仍然需要在其中扮演一个重要的角色。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

这样一来,软件工程人员的定位其实也在发生变化。以前大家可能专注于前端或后端的开发工作。而现在,AI全栈工程师的需求更大Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

过去所谓的全栈工程师意味着前端、后端和数据都懂,但现在可能还需要理解算法。随着大模型发展,前端和后端的工作可能会逐渐由大模型辅助,即作为协作者(Co-worker)来分担部分功能,从而释放出开发者的时间。这样开发者就可以将更多时间投入到提升新的技能上,比如对产品的深入理解,对用户体验的关注,对算法创新等。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

基于对整个领域进行了深入的探索,我发现要进一步去实现还有不少挑战,主要有五个方面:Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • 端到端代码生成能力

基础模型层面,目前主要是实现代码补全的功能,但在实际应用中只有大约30%问题可以通过这种方式解决,剩余的70%则需要端到端代码生成能力,需要跨文件、跨代码库,甚至跨代码库和文档库的理解和交互。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

所谓的端到端,对于一个代码库而言,一个典型的例子,我们需要能够直接调用库中的API,修复问题(issue),甚至能够复用跨库的中间件能力。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然而,仅凭基础模型是无法实现这些的,我们还需要探索更多的能力。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • Agent推理能力

尽管最近Devin 被曝出演示视频存在造假,备受关注,但我认为它还是代表了一种趋势、一种技术流派——Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

如何将定制工具调用与大型模型相结合,实现整个工作流程的自动化。这个问题,尤其是扩展到全生命周期,实际上相当困难,尤其是面向云后端的研发环境,工具种类繁多。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

比如面向前端应用可能只有天气预报、查询火车票、预定酒店等十几个工具,但在云后端,则可能会有数百个甚至上千个工具,每个工具都包含数十个参数。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

除此之外,还有需求拆解、跨模态横向交互、安全可信可靠的挑战。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

尤其代码的安全可信可靠,像蚂蚁这样的企业级用户,需要应对面向金融级别的高可用性和安全性的要求,也充满了挑战。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过也正因为在金融级垂直场景的深耕,包括资源配置和历史经验积累,蚂蚁也构成了属于自己的场景优势。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

首先,我们拥有涵盖整个生命周期各个环节全方位的团队,尤其在双十一等大型促销活动期间的高可用性方面经验丰富,这有助于推进全生命周期的代码大模型,这是我们与外部的主要区别之一。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

其次,我们在特定领域,如金融领域,以及前端领域,都有一定经验积累,尤其是在支付系统等对安全性要求极高的场景中。这些积累使我们在安全性、可靠性和可信度方面具有差异化优势。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

虽然挑战不少、道阻且长,但我认为,蚂蚁将携手开源社区一起努力,在万物摩尔定律的牵引下,未来两三年可以一定程度解决好这个问题。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

One More Thing

最后,面对当下大模型发展,李建国博士忍不住感叹:Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我以前做深度学习,那时候非常卷,可能2019年之前,我发现这个领域已经卷不动了,跳出来做NLP,发现这个领域也还是更加的卷。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

但不得不承认,大模型再次点燃了NLP、视觉处理、代码生成等各个领域的热度,焕发新的活力。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对于接下来的发展,李建国点名最看好具身智能的发展,这将是未来5到10年的研究热点。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

它将成为数字世界与物理世界之间的桥梁,能够感知并执行操作。这可能会带来类似Matrix(黑客帝国)这样的场景的巨大进步,甚至可能像电影《终结者》中展示的那样,成为真正的巨大飞跃。Hgw流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程http://www.llsum.com/show-2-5310-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 黑照变废为宝!超能AI一句话修出创意大片,亲妈看了都说真

下一篇: 微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了

热门资讯

  • 未来,政企深度用云需要一朵怎样的“云”?

    随着历史的车轮驶入2024年,大模型、AIGC等话题引发广泛热议,云计算与AI技术展现出了前所未有的深度融合趋势,就如同寒武纪的生物大爆发,激发着各行各业

  • 我科学家发现的两种新矿物获国际认定

    记者19日从西北大学获悉,该校地质学系、大陆动力学国家重点实验室刘鹏副教授与中国地质大学(北京)李国武教授团队申请的两种新矿物,近日经国际矿物学学

  • 研究发现神经系统疾病成人类健康主要“杀手”

    据法新社巴黎3月15日报道,15日发布的一项新的重要分析称,影响神经系统的疾病——如中风、偏头痛和痴呆症——已经超过心脏病,成

  • 日学者提出“深海激励化学”新概念

    日本《朝日新闻》近日发表题为《深海之光——极端环境是创意宝库》的文章,作者是樱井林太郎,编译如下:在被称为最后未开垦地的深海,有着低温

  • “95后”的无人机“造像师”

    “当时是怎样选中低空经济这个领域,并且来深圳发展的?”面对这个关乎事业发展的问题,“95后”台青张晏纶坦言,“这是一场面试带来的惊喜。”张晏纶来自

  • 专家:警惕常见睡眠认知误区

    3月21日是世界睡眠日,中国主题为“健康睡眠 人人共享”。近日发布的《2023年中国居民睡眠白皮书》显示,我国居民平均睡眠时长6.75小时,平均在零点后入

  • 科学新发现丨有史以来最大的三维宇宙地图发布

    根据《天体物理学杂志》的最新报道,一个国际天文学家团队利用欧洲空间局的盖亚(Gaia)太空望远镜收集的数据,创建了迄今为止最庞大的三维宇宙地图。该地

  • 以抗双链抗体为治疗靶点 我科研人员找到高效治疗红斑狼疮新路径

    记者3月20日从西安交通大学第二附属医院获悉,该院皮肤病院夏育民教授科研团队研究设计了一种靶向抗双链抗体的D型模拟肽(D-ALW多肽)纳米微粒,成功应用

  • 量子互联网:小荷已露尖尖角

    近日,美国纽约州立大学石溪分校科学家菲格罗阿等人在一篇发表于《自然·量子信息》上的论文中称,他们通过把两个独立的光子存储在铷气里,首次在

  • 首款骁龙8 Gen3折叠屏!vivo X Fold3图赏

    3月23日消息,vivo X Fold3系列将于3月26日正式发布,成为全球首款骁龙8 Gen3折叠屏电话。现在这款新机外观已经解禁,下面为大家带来图赏。vivo X Fold3提供

  • Kimi掀起国产大模型长文本竞赛

    作为月之暗面的创始人,杨植麟常把他的AGI梦想形容为“登月计划”,长文本就是这个伟大计划的第一步。但现在,随着Kimi的爆火出圈,赛道瞬间变得

  • “穿上就走”的通用外骨骼面世

    美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准,对复杂算法进行调整后,用户穿上外骨骼就可以直接行走

推荐资讯

  • 日榜
  • 周榜
  • 月榜