设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

2024-04-23 15:18:13 来源: 量子位

超70%代码问题,单纯靠基座大模型是解决不了的。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

白交 发自 凹非寺vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

量子位 | 公众号 QbitAIvyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

超70%代码问题,单纯靠基座大模型是解决不了的;vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

未来3-5年,人类50%编程工作可以被替代,有些环节甚至完全自动化。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

蚂蚁集团代码大模型CodeFuse负责人李建国说道。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

当下,AI代码生成领域正在野蛮式生长,巨头涌入,AI员工频频上线企业;首个AI程序员Devin被曝造假…… 面对风起云涌的代码生成变革,李建国给出了这样一个明确论断。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

李建国是谁?vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

清华大学博士,机器学习、深度学习深耕十余年,论文被引万余次。在他的带领下,蚂蚁内部正全面推行AI编程。每周已有超五成程序员使用CodeFuse,目前CodeFuse生成代码整体采纳率为30%,已经属于整个AI编程工具中能力第一梯队,最强Copilot代码整体采纳率差不多在35%。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

而在开源这边,在各社区网站上CodeFuse下载量已经达到170万左右vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

因此不管是学术的权威性,还是产业落地的代表性,李建国博士极具话语权。于是在代码生成模型和产品爆发式发展的当下,量子位同李建国博士展开了进一步交流。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

核心观点如下:vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • 编写代码在整个企业研发过程中所占的比重可能连1/5,甚至1/10都不到;
  • 要实现项目级的需求实现,从原子级需求端到端渐进发展的模式是切实可行的;
  • AI程序员成为企业运营中的新常态已经是势不可挡的趋势;
  • 超70%代码问题,单纯靠基座大模型是解决不了的;
  • 目前自然语言编程处于L2.5阶段,按照万物摩尔定律的发展趋势,未来3-4年达到L3,甚至接近L4的水平是有可能的。
  • 相较于前、后端的软件工程师,AI全栈工程师需求更大
  • 当前代码生成变革所面对的挑战包括:端到端代码生成能力、Agent推理能力、复杂需求拆解、跨模态横向交互、安全可信可靠。

编写代码只占整个研发生命周期1/5不到

首先,程序员这个行业历史并不算长,从20世纪50年代至今,大约有七八十年的历史。随着技术的进步,编程工具不断更新迭代(打孔- VI编辑器-集成开发环境-辅助编程工具),程序员的工作效率得到了显著提升。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

来到大模型时代,相关模型和产品演化迭代十分迅速,可以说十分的“卷”。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对个人开发者而言,AI编程工具只需完成从需求到代码实现的闭环过程就够了,就像Copilot这样的工具。他们更倾向于关注如何高效地实现需求vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

但从企业维度则更关注整个研发流程的效率提升,除了关注代码生成的安全可靠可信,测试构建、发布运维以及数据洞察等方面也是至关重要的。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我们期望能够有一个研发智能体,甚至是一个智能总线(bus),它能够与各个Agent进行交互,并将任务分发下去——从架构设计到前端实现,再到后端开发,以及安全测试和功能测试,最后是效能方面的持续集成/持续部署(CICD)和运维自动化。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

整个系统上线后,还能够自动进行运维布控,并分析产品的用户访问量(UV)、页面浏览量(PV)等数据。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

编写代码在整个过程中所占的比重可能连五分之一或十分之一都不到。但如果这样的Agent能将所有环节高效连接起来,从而真正提升整个流程的效率。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

再加上当前程序员实际所面临的痛点在于,市面上一些产品大多是原子级能力的实现——通过单体大模型只能解决30%的代码补全,无法解决更多的代码问题,比如跨库的函数调用。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

基于这样的行业思考,去年9月份开始,我们开源了CodeFuse,并明确提出要构建全生命周期的代码大模型vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

目前,我们已经发布基础模型,并持续开发和开源相关的仓库,涵盖了从需求设计、编程开发、测试构建、发布运维、到数据洞察分析等多个方面,在modelscope和huggingface上模型下载量已经达到170万左右vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

下一步,我们计划进行项目级的需求实现,这相当于去实现一个全新的系统。这对基础模型提出更高的要求——vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

自然语言理解的能力至少达到GPT-4或GPT-4.5的水平。但从目前的情况来看,我们更倾向于采取一种渐进的模式。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我们首个MileStone是解决仓库内及跨仓库的需求实现问题,包括API调用、服务调用,以及涉及到的外部中间件版本更新问题。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

如果我们能够妥善处理这些问题,就能解决刚才提到的70%问题中很大一部分(比如20%的问题),这将显著提高代码采纳率,并让用户感到满意。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最终要实现项目级别的需求任重而道远。我认为,代码基础模型和Agent技术需要同步快速发展,才能达到我们的目标。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我们的思路相对保守,因为就基础模型的要求而言,我认为短期内国内要达到GPT水平还存在一定差距。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

大模型对软件开发的范式改变

AI程序员成为企业运营中的新常态已经成为势不可挡的趋势。不管是像Devin这种AI程序员,还是我们提到的全生命周期研发智能体,大模型对整个软件研发范式都是非常大的提效。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

过去遇到不懂的问题,人们可能首先会去Google或百度上搜索,而现在,他们可以直接在代码中提问,随即获得一个相对精确的结果,采纳后即可使用。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我认为这是一个巨大的效率提升,它代表着进步。人们可以将更多的精力释放出来,投入到更具创造性的工作中去。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

前段时间,CodeFuse发布了图生代码的功能,它可以通过在界面上简单画一个框,就能自动生成相应的代码。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

以往可能需要编写数百行代码的工作,现在只需一次点击和画框操作就能实现。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

而要从产品设计的角度来看,我认为实现无缝接入和无感体验是至关重要的vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

这意味着产品应能平滑地融入现有的工作模式中,用户在使用过程中几乎不会意识到它的存在,从而极大地提升用户体验,并推动整个研发流程的创新和进步。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

例如,我们内部每周有超过一万人的智能代码生成活跃用户,很多人都没意识到自己在使用CodeFuse,在日常使用IDE插件、浏览器的过程中,用户已经不知不觉地使用了我们的产品。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我们的目标是服务于整个研发的全生命周期。如果能够实现这一点,那将是一个革命性的成功。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

现在AI写代码相当于L2.5

目前整个代码生成领域,可能处于一个类似于自动驾驶技术中的L2.5级别,许多公司都处于这一水平。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

比如自动驾驶L2.5级别的功能,如车道线辅助、前方碰撞检测等,这些都是作为整体存在的一部分。在大模型领域,也看到了类似的补充功能,包括解释、注释、简化优化和单元测试等。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我们接下来的目标是在某些特定场景下实现L3级别的完全自动化,这是有可能实现的。例如,在效能领域中的持续集成(CICD)场景,就有可能通过大模型的驱动来自动完成,包括触发检查、提交,甚至创建拉取请求(PR)等操作。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然而,要实现全场景、全链路的自动化,前端可能还需要一段时间才能发展起来,复杂的项目级的需求拆解特别是特定领域的拆解,也面临较大挑战。我认为可能还需要3-5年的时间,在万物摩尔定律的推动下,整个社区,包括我们自己的不断努力和发展。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

到那时候,我们可以期待从当前的状态发展到一个新的阶段——vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

例如,从Copilot到co-worker,现在可能有20%到30%的编程工作可以被替代,未来这个比例可能会提高到50%,甚至有些环节可以完全被自动化取代,释放人去做更有创意的工作。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

甚至成为一个full agent。虽然可能无法完全替代人类,但在未来3-5年内,达到L3甚至接近L4的水平是有可能的。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

正如自动驾驶技术一样,虽然已经提出很多年,许多人声称已经达到L4级别,但实际上许多场景仍然处于L2.5到L3级别。要实现全场景的自动化,人类仍然需要在其中扮演一个重要的角色。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

这样一来,软件工程人员的定位其实也在发生变化。以前大家可能专注于前端或后端的开发工作。而现在,AI全栈工程师的需求更大vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

过去所谓的全栈工程师意味着前端、后端和数据都懂,但现在可能还需要理解算法。随着大模型发展,前端和后端的工作可能会逐渐由大模型辅助,即作为协作者(Co-worker)来分担部分功能,从而释放出开发者的时间。这样开发者就可以将更多时间投入到提升新的技能上,比如对产品的深入理解,对用户体验的关注,对算法创新等。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

基于对整个领域进行了深入的探索,我发现要进一步去实现还有不少挑战,主要有五个方面:vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • 端到端代码生成能力

基础模型层面,目前主要是实现代码补全的功能,但在实际应用中只有大约30%问题可以通过这种方式解决,剩余的70%则需要端到端代码生成能力,需要跨文件、跨代码库,甚至跨代码库和文档库的理解和交互。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

所谓的端到端,对于一个代码库而言,一个典型的例子,我们需要能够直接调用库中的API,修复问题(issue),甚至能够复用跨库的中间件能力。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然而,仅凭基础模型是无法实现这些的,我们还需要探索更多的能力。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  • Agent推理能力

尽管最近Devin 被曝出演示视频存在造假,备受关注,但我认为它还是代表了一种趋势、一种技术流派——vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

如何将定制工具调用与大型模型相结合,实现整个工作流程的自动化。这个问题,尤其是扩展到全生命周期,实际上相当困难,尤其是面向云后端的研发环境,工具种类繁多。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

比如面向前端应用可能只有天气预报、查询火车票、预定酒店等十几个工具,但在云后端,则可能会有数百个甚至上千个工具,每个工具都包含数十个参数。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

除此之外,还有需求拆解、跨模态横向交互、安全可信可靠的挑战。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

尤其代码的安全可信可靠,像蚂蚁这样的企业级用户,需要应对面向金融级别的高可用性和安全性的要求,也充满了挑战。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过也正因为在金融级垂直场景的深耕,包括资源配置和历史经验积累,蚂蚁也构成了属于自己的场景优势。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

首先,我们拥有涵盖整个生命周期各个环节全方位的团队,尤其在双十一等大型促销活动期间的高可用性方面经验丰富,这有助于推进全生命周期的代码大模型,这是我们与外部的主要区别之一。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

其次,我们在特定领域,如金融领域,以及前端领域,都有一定经验积累,尤其是在支付系统等对安全性要求极高的场景中。这些积累使我们在安全性、可靠性和可信度方面具有差异化优势。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程

虽然挑战不少、道阻且长,但我认为,蚂蚁将携手开源社区一起努力,在万物摩尔定律的牵引下,未来两三年可以一定程度解决好这个问题。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

One More Thing

最后,面对当下大模型发展,李建国博士忍不住感叹:vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

我以前做深度学习,那时候非常卷,可能2019年之前,我发现这个领域已经卷不动了,跳出来做NLP,发现这个领域也还是更加的卷。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

但不得不承认,大模型再次点燃了NLP、视觉处理、代码生成等各个领域的热度,焕发新的活力。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

对于接下来的发展,李建国点名最看好具身智能的发展,这将是未来5到10年的研究热点。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

它将成为数字世界与物理世界之间的桥梁,能够感知并执行操作。这可能会带来类似Matrix(黑客帝国)这样的场景的巨大进步,甚至可能像电影《终结者》中展示的那样,成为真正的巨大飞跃。vyE流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:对话蚂蚁李建国:当前AI写代码相当于L2.5,实现L3后替代50%人类编程http://www.llsum.com/show-2-5310-0.html

声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 黑照变废为宝!超能AI一句话修出创意大片,亲妈看了都说真

下一篇: 微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了

热门资讯

  • 云南首批621座变电站实现人工智能巡检

    “远方巡视启动!”南方电网云南保山220千伏大寨变电站日前启动首次全套智能巡视,109个摄像头快速旋转,10套在线监测系统开始收集数据,变电站的无人机机

  • 打造平台级AI 引领行业创新

    3月18日,荣耀在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,以及与全球产业链共振创新的一系列智能设备。荣

  • 培育一批专利产业化样板企业

    近日,国家知识产权局等五部门联合印发了《专利产业化促进中小企业成长计划实施方案》(以下简称《实施方案》)。《实施方案》提出,到2025年底,中小企业知

  • 突发!Kimi,崩了!

    因流量突然剧增,3月21日,陆续有用户在社交平台上表示,月之暗面旗下大模型应用Kimi智能助手的APP和小程序均无法正常使用。截至记者发稿时,相关

  • 我国建立“天-空-地-深”一体化铀矿勘查技术体系

    记者3月21日从核工业北京地质研究院(以下简称核地研院)获悉,该院自1959年成立以来,在天然铀保障、高放废物地质处置、核遥感技术与应用、分析测试等领

  • “认知选择”或影响人类语言演化

    人类的语言自产生以来,就不断演化发展。发音、词汇、语法的演变过程,是语言学家较为关注的领域。语言演化的根本动力是什么,演化又呈现出怎样的规律?我

  • AI、死亡与机器人:“数字生命”背后的生意与争议

    21世纪经济报道记者 冯恋阁 王俊 广州、北京报道2013年播出的科幻电视剧《黑镜》第二季中有这样一个故事——女主角玛莎在男友艾什被车祸

  • Kimi累趴下了,券商仍看好

    21世纪经济报道记者雷晨 北京报道近日,国内AI领域的明星产品——Kimi智能助手,因流量激增遭遇了短暂的服务中断。月之暗面随后发布公告,对此

  • 30台发动机助进阶版“鹊桥”升空

      30台发动机助进阶版“鹊桥”升空  中新社西安3月20日电 (记者 张一辰)3月20日8时31分,长征八号遥三运载火箭在中国文昌航天发射场顺利升空,成功将“鹊桥二号”卫星送入

  • huawei回应P70预售时间曝光:假的 最近没有官方消息透露

    3月22日消息,根据huawei旗舰机型迭代策略,今年上半年将发布影像旗舰huaweiP70系列。然而,这两天一张流出的图片声称huaweiP70将于3月23日开始预售,并附有各

  • 2999元!xiaomiCivi 4 Pro供不应求:春野绿配色好多门店缺货

    3月22日消息,xiaomi集团的许斐在微博上表示,xiaomiCivi 4 Pro的预售业绩远超预期,尤其是春野绿配色,许多门店都出现了缺货情况。据了解,xiaomiCivi 4 Pro的

  • 英媒:人工智能助力抗体设计

    据英国《自然》周刊网站3月19日报道,研究人员首次利用生成式人工智能(AI)制造出全新抗体。报道称,本周生物学预印本资料库中的一份预印本报告的原理验

推荐资讯

  • 日榜
  • 周榜
  • 月榜