构建中国人自己的智能生态解决大模型的“烦恼”

2024-05-21 17:26:36 来源：中国青年网

观看：110

热度不减的大模型是实现人工智能的唯一解决方法吗？每个行业都要有自己的大模型吗？对于大模型，我们现在还是跟随，那么自主的发展路径是什么？当预训练大模型搅动起巨大的研发、应用热潮时，这些问题随之产生。

中国计算机学会以“智启新局”为主题，5月16-18日在浙江宁波举办了2024青年精英大会（YEF2024），1200多名来自全国各高校、科研院所、企业的青年学者、专家，集中讨论了大模型、人工智能安全、国产算力、开源芯片、脑机接口等多个前沿领域发展。

不依赖“一两个模型打天下”

大模型为什么不是万能的？面对现在的大模型热，南京大学计算机系主任、人工智能学院院长周志华教授从两个方面进行了分析，一方面大模型确实非常有用，所以业界特别是企业应该努力“压榨”这个大模型路线的技术红利，尽可能让它发挥更大的作用；另一方面也需要认识到大模型不是所有任务的最佳解决方案，“很多企业现在都在做自己的大模型，甚至觉得不做大模型不正确，但是机器学习里有一个基本定律‘没有免费的午餐’。希望一个算法模型能够包打天下是不可能，一定有弱点，大模型有一些‘烦恼’。”

长期从事人工智能核心技术机器学习研究的周志华教授，有一系列原创性成果，他列举了大模型的多个“烦恼”。

首先，大模型要先规划任务、收集数据，然后训练出模型，也就是说必须先考虑到要解决某一类任务，然后为它去收集数据做模型，这时如果有一个新任务，原来没有考虑规划过，这时就没有模型可用的。

其次，大模型训练和使用能耗、碳耗、数据耗都很大，一般人用不起。有人作过预测，按照现在的趋势下去，2025年一个大模型训练产生的碳排放相当于全纽约一个月的碳排放。

周志华教授提到，现在人们都希望先训练一个模型，并希望在使用的过程中不断去更新它，但是目前的大模型路线，有一个问题叫“灾难性遗忘”。他以自动汽车驾驶为例，若机器学习模型在对新环境获取的数据进行学习时，会“冲掉”旧环境中得到的宝贵信息，会出现重大安全隐患。

由于前面列举的各种问题，人们都希望大模型能够持续学习和终身学习，希望模型学了一堆任务之后，随着应用的不断发展，能够不断地“学”下去。周志华判断：“这件事情在今天基于神经网络，或者从基本的数学工具上还看不到解决方案。”

“训练大模型要有大量的训练数据，但是在大数据时代，这仍然是问题。”周志华解释，有的应用样本总量就是小，比如我们要做油田定位，这个数据要通过人工诱发地震才能获得，那就不可能有大量数据。再比如银行信用卡欺诈交易检测，样本很小。现在有人基于大模型在做软件缺陷检测，马上就会碰到这个问题，虽然互联网上这样的开源代码很多，但是真正由程序员标注出缺陷的很少，所以数据总量仍旧是问题。

此外，数据隐私和所有权问题还无法解决。比如做医疗诊断，大医院有很好的数据，能做很好的模型，社区医院数据不多，做不了很好的模型，大医院能不能把这个数据进行分享？一旦分享，患者隐私就没办法得到保障。

“所以大模型的成功，更多是在很多日常能够接触到的，比如互联网语料文本、视频，容易收集到的语音数据，都是一些公开、开源、高频的任务数据，而真正和生产行业和日常生活，特别是涉及隐私相关的任务里面其实很难做。”他提出：“所以要有一个认识，大模型很成功，但是它更适用于资源富集，就是大数据、大算力、大资金、大能耗。而且模型可以离线训练，不需要在线更新，更重要的它是高频任务。但如果是小资源，模型不能够离线训练，必须要求在线更新时，就不合适。”

“所以大模型的用处更应该是因地制宜，或者因任务制宜，很多的任务可能不太适用于像今天的大模型。我们有必要去尝试其他的研究路线。我们这几年在研究这么一件事，叫作‘学件’（learnware），这个词也是我们造出来的。”周志华介绍，学件=模型+规约，基本思想是不依赖“一两个英雄模型打天下”，可以发挥多个模型的集成作用，以适应不同任务需求。在未经过专门训练的新任务上提供解决方案，同时强调保护用户和开发者的数据安全，实现模型之间的协同工作，以推动创新和提升问题解决能力。

AI应用市场繁荣，但这是一座“危楼”

中国科学院院士、清华大学教授胡事民在报告中提及，本轮人工智能发展有四驾马车：算力、框架、算法、数据，汇聚并促进了人类智慧的交融。他认为，应该更全面看待人工智能发展，不要只看应用端，要从硬件、框架、模型算法和应用四个层面来看，这四者都对人工智能的生态产生重要影响。

胡事民院士分析了目前人工智能发展，我国面临的几个不利条件。首先，从硬件来看，两种国外AI芯片占了99%的市场份额。国产芯片要融入既有生态非常难，迭代更新慢。

其次，从框架来看，国外深度学习框架占据主导的地位，国产框架面临生态屏障。从模型与算法方面来看，比前两者要好，但需加强原始创新。

在应用层面，我国市场大、应用场景多、落地快、市场繁荣，有许多创业公司，“但它是一栋危楼，底下的硬件和软件有问题。这是我们的现状。”

“需要以深度学习框架为牵引，夯实我国AI生态。”胡事民院士提出，因为框架承上启下，它可以在芯片算力水平不高的情况下尽量挖掘潜力，同时把应用层支撑好。清华大学在2020年3月20日推出“计图”深度学习框架，具备两个优点：第一个好处是快；第二个好处是对硬件的支持广泛，可以快速适配任何一款国产硬件。“希望以‘计图’框架为核心，基于国产硬件促进人工智能算法应用的创新，来推动开源开放，构建中国人工智能的生态。”

人工智能自主发展需要汇聚青年力量

中国工程院院士、清华大学教授郑纬民告诉中青报·中青网记者，从学术角度来看，现在有四类人在关注大模型，一是真正做大模型的；二是大模型+，做应用的；三是进行政策规范治理的研究学者；四是如何让大模型用起来，进行基础设施建设的科研人员。

作为大会程序委员会主席，清华大学副教授崔鹏说，我们现在整体人工智能的发展路径还是以跟随为主，其中一个很明显的现象是，OpenAI发布一个新的产品，我们赶紧奋起直追，那么中国人工智能自主发展路径在何方，希望汇聚青年精英的力量，共同去探讨和商议。

清华大学公共管理学院教授，人工智能治理研究中心主任梁正在专题报告中指出，发展人工智能，我国在基础理论、核心软硬件和生态方面还与国际先进水平有一定差距，要平衡创新与治理、践行价值对齐的伦理思路，并吸收国际经验，探索理念开放、主体多元、对象分层、工具灵活的敏捷治理新思路，以推动我国人工智能治理的进一步发展。

相较于大语言模型，近期以Open AI的SORA、GPT-4o，以及谷歌的Geimini为代表的世界模型，成为学术界和工业界的研究热点，被认为是通向强人工智能的关键技术路径。但是以多模态学习为基础的世界模型的路线还不清晰，未来发展有很多争议，复旦大学教授邱锡鹏教授发起的“世界模型之路在何方”的论坛，吸引了更多学者探讨世界模型的发展路线，以及在国内算力不足的条件下如何轻量化发展，如何跨模态相互理解等研究方向。