设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

AI发展:训练数据即将遭遇瓶颈

2025-01-02 09:51:18 来源: 中国科技网

得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。“做大做强”的策略,在构建大型语言模型(LLM)上取得了显著成果,ChatGPT就是一个典型的例子。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然而,《自然》《麻省理工科技评论》等多家杂志网站指出,AI扩展正逼近极限。一方面,AI“吞噬”着越来越多的能源;另一方面,滋养无数模型成长的传统数据集,正被LLM开发人员过度开垦。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

训练数据即将遭遇的瓶颈已悄然浮现。有研究机构预测,到2028年左右,用于训练AI模型的数据集典型规模将达到公共在线文本总估计量的规模。换句话说,AI可能会在大约4年内耗尽训练数据。与此同时,数据所有者(如报纸出版商)开始打击对其内容的滥用行为,进一步收紧了访问权限,这正在引发“数据共享”规模上的危机。为此,开发人员必须寻找变通之道。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

数据集供需失衡I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

过去10年间,LLM的发展显示出了对数据的巨大需求。自2020年以来,用于训练LLM的“标记”(或单词)数量已增长100倍,从数百亿增加到数万亿。一个常见的数据集RedPajama,包含数万亿个单词。这些数据会被一些公司或研究人员抓取和清洗,成为训练LLM的定制数据集。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然而,可用互联网内容的增长速度出乎意料的缓慢。据估计,其年增长率不到10%,而AI训练数据集的大小每年增长超过一倍。预测显示,这两条曲线将在2028年左右交汇。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

与此同时,内容供应商越来越多地加入软件代码或修改条款,阻止爬虫及AI抓取其数据。在这些内容中,被明确标记为限制爬虫访问的数量,从2023年的不足3%猛增到了2024年的20%至33%之间。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

当前,围绕AI训练中数据使用的合法性,试图为数据提供商争取应有赔偿的多起诉讼正在进行。2023年12月,《纽约时报》向OpenAI及其合作伙伴微软提起了诉讼,指控其侵犯了版权;今年4月,纽约市Alden全球资本旗下的8家报纸联合发起了一起类似的诉讼。对此,OpenAI表示,《纽约时报》的诉讼“毫无根据”。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

若法院最终站在内容提供商一方,支持其获得经济赔偿,那么对于AI开发人员,尤其是那些资金紧张的学者而言,获取所需数据无疑将变得更加艰难。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

新方法有待印证I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

数据匮乏对AI的传统扩展策略构成了潜在挑战。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

寻找更多数据的一个途径是收集非公开数据,如社交媒体消息或视频文字记录。然而,这种做法的合法性尚存争议。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

一些公司选择使用自己的数据来训练AI模型,如Meta利用虚拟现实头显收集的音频和图像进行训练。但各公司政策不同,包括Zoom在内的一些公司则明确表示不会使用客户内容训练AI。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

另一种选择可能是专注于快速增长的专业数据集,如天文学或基因组学数据,但其对训练LLM的可用性和实用性尚不清楚。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

如果AI接受除文本之外的多种类型的数据训练,可能会为丰富数据的涌入打开闸门。Meta首席AI科学家勒丘恩强调,人类通过观察物体而“吸收”的数据远超用于训练LLM的数据量,机器人形态的AI系统或许能从中获取经验。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

此外,制造数据也是解决之道。一些AI公司付费让人们生成训练内容,或使用AI生成的合成数据来训练AI。这已成为一个潜在的巨大数据源。然而,合成数据也存在问题,如递归循环可能巩固错误、放大误解,并降低学习质量。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

小模型更专更精I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

另一种策略是摒弃模型“越大越好”的开发观念。一些开发者已在追求更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据以及更好的训练技术。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

12月5日,OpenAI发布了新的OpenAI o1模型。尽管该公司未透露模型的规模或训练数据集大小,但o1采用了新方法:在强化学习上投入更多时间,让模型对每个回答进行更深入的思考。这标志着一种转变,即从依赖大规模数据集进行预训练,转向更注重训练和推理。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

当前,LLM可能已饱览互联网大部分内容,或许无需更多数据即可变得更智能。美国斯坦福大学一项研究表明,模型从多次读取给定数据集中学到的内容,与从相同数量的唯一数据中学习到的内容一样丰富。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

合成数据、专门数据集、多次读取和自我反思等因素的结合,或将共同推动AI的进一步飞跃。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

得益于神经网络规模的扩大以及海量数据的训练,人工智能(AI)在过去10年间突飞猛进。“做大做强”的策略,在构建大型语言模型(LLM)上取得了显著成果,ChatGPT就是一个典型的例子。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然而,《自然》《麻省理工科技评论》等多家杂志网站指出,AI扩展正逼近极限。一方面,AI“吞噬”着越来越多的能源;另一方面,滋养无数模型成长的传统数据集,正被LLM开发人员过度开垦。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

训练数据即将遭遇的瓶颈已悄然浮现。有研究机构预测,到2028年左右,用于训练AI模型的数据集典型规模将达到公共在线文本总估计量的规模。换句话说,AI可能会在大约4年内耗尽训练数据。与此同时,数据所有者(如报纸出版商)开始打击对其内容的滥用行为,进一步收紧了访问权限,这正在引发“数据共享”规模上的危机。为此,开发人员必须寻找变通之道。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

数据集供需失衡I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

过去10年间,LLM的发展显示出了对数据的巨大需求。自2020年以来,用于训练LLM的“标记”(或单词)数量已增长100倍,从数百亿增加到数万亿。一个常见的数据集RedPajama,包含数万亿个单词。这些数据会被一些公司或研究人员抓取和清洗,成为训练LLM的定制数据集。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然而,可用互联网内容的增长速度出乎意料的缓慢。据估计,其年增长率不到10%,而AI训练数据集的大小每年增长超过一倍。预测显示,这两条曲线将在2028年左右交汇。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

与此同时,内容供应商越来越多地加入软件代码或修改条款,阻止爬虫及AI抓取其数据。在这些内容中,被明确标记为限制爬虫访问的数量,从2023年的不足3%猛增到了2024年的20%至33%之间。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

当前,围绕AI训练中数据使用的合法性,试图为数据提供商争取应有赔偿的多起诉讼正在进行。2023年12月,《纽约时报》向OpenAI及其合作伙伴微软提起了诉讼,指控其侵犯了版权;今年4月,纽约市Alden全球资本旗下的8家报纸联合发起了一起类似的诉讼。对此,OpenAI表示,《纽约时报》的诉讼“毫无根据”。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

若法院最终站在内容提供商一方,支持其获得经济赔偿,那么对于AI开发人员,尤其是那些资金紧张的学者而言,获取所需数据无疑将变得更加艰难。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

新方法有待印证I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

数据匮乏对AI的传统扩展策略构成了潜在挑战。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

寻找更多数据的一个途径是收集非公开数据,如社交媒体消息或视频文字记录。然而,这种做法的合法性尚存争议。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

一些公司选择使用自己的数据来训练AI模型,如Meta利用虚拟现实头显收集的音频和图像进行训练。但各公司政策不同,包括Zoom在内的一些公司则明确表示不会使用客户内容训练AI。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

另一种选择可能是专注于快速增长的专业数据集,如天文学或基因组学数据,但其对训练LLM的可用性和实用性尚不清楚。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

如果AI接受除文本之外的多种类型的数据训练,可能会为丰富数据的涌入打开闸门。Meta首席AI科学家勒丘恩强调,人类通过观察物体而“吸收”的数据远超用于训练LLM的数据量,机器人形态的AI系统或许能从中获取经验。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

此外,制造数据也是解决之道。一些AI公司付费让人们生成训练内容,或使用AI生成的合成数据来训练AI。这已成为一个潜在的巨大数据源。然而,合成数据也存在问题,如递归循环可能巩固错误、放大误解,并降低学习质量。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

小模型更专更精I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

另一种策略是摒弃模型“越大越好”的开发观念。一些开发者已在追求更高效、专注于单一任务的小型语言模型。这些模型需要更精细、更专业的数据以及更好的训练技术。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

12月5日,OpenAI发布了新的OpenAI o1模型。尽管该公司未透露模型的规模或训练数据集大小,但o1采用了新方法:在强化学习上投入更多时间,让模型对每个回答进行更深入的思考。这标志着一种转变,即从依赖大规模数据集进行预训练,转向更注重训练和推理。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

当前,LLM可能已饱览互联网大部分内容,或许无需更多数据即可变得更智能。美国斯坦福大学一项研究表明,模型从多次读取给定数据集中学到的内容,与从相同数量的唯一数据中学习到的内容一样丰富。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

合成数据、专门数据集、多次读取和自我反思等因素的结合,或将共同推动AI的进一步飞跃。I9K流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:AI发展:训练数据即将遭遇瓶颈http://www.llsum.com/show-2-9987-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 商业气象小卫星数据首次获准进入我国气象业务系统

下一篇: 帕克探测器创人造物体“触摸”太阳距离新纪录

热门资讯

推荐资讯

  • 宋城演艺收函:原审计机构辞任理由真实合理?

      中新经纬2月21日电 深交所21日向宋城演艺下发关注函,要求其对原审计机构辞任理由是否真实合理等作出说明。  2月8日盘后,宋城演艺披露《关于拟变更会计师事务所的公告》

  • 六连阳!冲击3000点!

      中新经纬2月21日电 (董文博)A股气势如虹!  21日,A股三大指数从盘绿开始一路上扬,午后沪指涨幅瞬间扩大至2%剑指3000点整数关口,深成指同步走高;沪深300指数、北证50指数盘

  • 何小鹏开年“亮剑”_何小鹏视频

    文/卞海川开年伊始,小鹏汽车CEO何小鹏发布龙年首封全员信,何小鹏在信中提到,今年是小鹏第十年,业绩要翻倍以上,组织要补充完成所有短板,经营要开始走向高质量第一步。中国汽车品

  • 沪指重回3000点,谁是反弹急先锋?

    21世纪经济报道记者 庞华玮 广州报道A股走出“八连阳”,上证指数收复3000点大关。2月23日,上证指数收于3004.88点,突破半年线。业内普遍认为,

  • 报告:节后首周38城平均招聘月薪10361元

      中新经纬2月23日电 智联招聘发布《2024年春招市场行业周报(第一期)》显示,节后首周平均招聘月薪10361元,比去年同期上涨3%。  节后首周平均招聘月薪10361元  数据显示

  • 证监会:将推进符合条件的消费基础设施REITs项目落地

      中新经纬2月23日电 证监会网站23日公布关于政协十四届全国委员会第一次会议第03037号(财税金融类189号)提案答复的函。对于《关于将消费类基础设施入池公募REITs的提案

  • 宅男财经|专家称房价又涨回来了

      【宅男财经|专家面对面】23日,国家统计局发布的2024年1月70城房价数据显示,商品住宅销售价格环比下降城市个数减少,商品住宅销售价格环比降幅整体收窄、同比整体延续降

  • 一汽大众召回部分奥迪汽车

      中新经纬2月23日电 据国家市场监督管理总局网站消息,日前,一汽-大众汽车有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要求,向国家

  • 龙年CNY,霸王茶姬抢占“C”位?

    来源:4A广告圏大家好,我是圈主。春节过去了,但CNY营销大赏还在继续。作为品牌们的大考时刻,春节是

  • 尤菲泳装形象亮相!《最终幻想7重生》最新宣传视频公布_《最终幻想7重制版》dlc尤菲篇攻略

    快科技2月25日消息,今天,《最终幻想7:重生》官方公布了游戏发售倒计时(四天)的宣传视频,包含了尤菲的多个形象,尤菲的泳装形象也是首次亮相。据了解,该作是《最终幻想7:重制版》三部

  • iOS封闭生态将终结:第三方应用商店3月上线_ios 第三方应用

    快科技2月24日消息,据媒体报道,iOS 17.4将于3月份的第一周上线,该版本最大升级点是在欧盟开放侧载,这意味着iOS的封闭生态将被打破。据悉,iOS 17.4接入了第三方应用商店,允许用户

  • 开年又赚20%!比特币ETF吸引公募入局

    比特币ETF的赚钱效应,正在刺激越来越多的公募基金入局。2月22日收盘数据显示,在去年成功实现业绩翻倍的南方比特币ETF再次扩大其收益,该产品

  • 日榜
  • 周榜
  • 月榜