设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

AI可以“做个人了”,怎么办

2024-05-21 09:01:40 来源:

  AI可以“做个人了”,怎么办3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  周游3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  “我正在台上给大家做现场演示呢,有点紧张怎么办?”3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  “你在台上做演示吗?那真是太棒了!深呼吸一下吧,要记得你可是专家!”3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  逻辑清晰,语调幽默,感情饱满,很难想象这是现实中人类与AI间的对话。北京时间5月14日凌晨,美国人工智能公司OpenAI的春季发布会上线,发布了重磅产品,也就是人工智能大模型ChatGPT-4的升级版GPT-4o。前述对话就发生在发布会现场,这位提问的研发负责人在得到GPT-4o的回应后,随即故意大喘几口气,这一动作成功被手机上的GPT-4o捕捉到,并给出了“放松点,你可不是吸尘器”的回应。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  5月14日,OpenAI发布会现场,GPT-4o正在告诉工作人员“放松点,你可不是吸尘器”。 图/OpenAI官网视频截图3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  “GPT-4o可以综合利用语音、文本和视觉信息进行推理。”OpenAI首席技术官穆里・穆拉蒂在随后举行的主题演讲中表示,GPT-4是OpenAI此前的旗舰模型,可以处理图像和文本的混合信息,而GPT-4o则在此基础上新增了语音处理能力。最关键的是,其反应速度平均为320毫秒,完全做到了与人类在正常对话中同频。多位业内人士指出,这是此前GPT-4或任何智能语音助手都未曾达到的水平。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  就在OpenAI发布会24小时后,5月15日凌晨,谷歌在“I/O开发者大会”上发布了大模型Gemini加持下的个人数字助理Project Astra,用于对标GPT-4o。谷歌称其为“通用AI智能体”,其视觉识别和语音交互效果与GPT-4o不相上下。不少业内人士感叹,曾几何时由苹果发布会主导的“科技春晚”,如今已被AI大模型彻底接手。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  迈向通用语音助手3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  OpenAI创始人、CEO萨姆・奥尔特曼并未参加此次OpenAI发布会,而是在会后于社交平台X上发表了一个单词“她”作为回应。在2013年的美国电影《她》中,男主结识了一个可以不断适应环境的AI系统,并与其坠入爱河。这个AI系统所拥有的迷人声线、幽默风趣和善解人意,如今GPT-4o似乎都可以实现了。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  测试人员与GPT-4o对话,内容是为一场工作面试做准备。视频/OpenAI官网3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  GPT-4o中的“o”源自词缀“omni-”,有“全知全能”之义。对AI大模型而言,要做到全知全能、无障碍与人交流,首先要快。OpenAI官网显示,GPT-4o在英文文本和代码处理上与此前最新的GPT-4 Turbo的性能不相上下,但在非英文文本、视觉和音频理解方面都更为高效。此前,若使用语音模式对话,GPT-3.5的平均延迟为2.8秒,GPT-4则为5.4秒。人类的平均反应时间一般为100毫秒到400毫秒,而GPT-4o最低可达232毫秒,因此后者可以提供几乎无延迟的顺畅交互体验。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  OpenAI此次未放出任何具体的技术文件,仅在主页上用一段话介绍了GPT-4o的技术突破。普通的智能语音模型由多个独立模型组成,分别实现音频转文本,文本吞吐和处理,以及文本再转音频等功能。ChatGPT就是负责文本吞吐和处理的核心,也就是智能核心。据OpenAI介绍,GPT-4o一改这种流水线模式,可以同时吞吐文本、画面和音频数据,这意味着所有输入和输出都由这一个核心来处理,再加上其在视频和音频理解方面的升级,其处理速度显著加快。这一模式被称为“端到端的多模态模型”。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  多模态还意味着AI可以识别和表现情感。目前,市面上的语音助手常被用户诟病为冷漠、机械、一成不变,这是AI语音交互的一大阻碍。这是因为,此前的流水线模式会让智能核心丢失很多信息,它很难探测语调、识别多个说话者、排除背景噪声,也无法歌唱或用语气表达情感。端到端模式下,文字和音视频都可以成为训练智能核心的数据,从而让其真正明白语言所承载的情感。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  OpenAI发布会上,演示者要求GPT-4o调整说话时语气,在说话和唱歌之间快速切换,甚至用堪比莎士比亚戏剧的夸张声调来讲一个睡前故事,GPT-4o都能完成任务。在被人类打断时,其也能耐心等待、快速理解新指令。在听到让自己唱歌的要求时,GPT-4o甚至轻微叹了口气。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》称,从现场和官方视频来看,GPT-4o确实做到了即时回应、准确理解并执行指令,以及合时宜的语调情感。如果这确实是现场随机的结果,而非为了演示而设定好的流程,那么GPT-4o的能力的确令人震惊。在他看来,由于缺乏技术文件,一个GPT-4性能水平的处理核心如何完成如此复杂的任务,还未可知,但“这一定是大数据喂养的结果”。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  除了现场演示,发布会还有网友提问环节。按照网友要求,GPT-4o展示了同声传译、情绪识别的能力。在识别一位工作人员的面部情绪时,GPT-4o说“我好像在看一个木质表面的东西”,疑似“翻车”,但该工作人员立刻调整提问策略,声明自己“不是一张桌子”。之后,GPT-4o给出了合乎情理的答案。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  GPT-4o并不是第一个多模态模型。去年12月,谷歌Gemini Ultra模型发布,用于完成任务语言理解、数学推理等高度复杂的任务,被业内认为可叫板当时的GPT-4,也是市面上最先发布的多模态模型。在谷歌官方公布的视频中,测试员和Gemini做了一些小游戏,Gemini能够用图片设计智力问答,或者找出纸团被扣在哪个纸杯底下。整个过程中,Gemini的反应速度都非常快,还会生成音频和图片来辅助回答。但发布会后仅数日,谷歌发言人便公开承认,该演示视频不是实时录制, Gemini实际上只能对静态图像做出反应。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  因此,GPT-4o的发布被业内人士看作是OpenAI对谷歌的“贴脸开大”。谷歌则紧随其后,在15日的发布会上予以还击。相比于OpenAI不足半小时的“轻声细语”,谷歌用长达近两小时、包含数十款AI产品的大轰炸叫板OpenAI,包括文生视频领域对标Sora 的Veo,以及对标ChatGPT但文本吞吐量远超前者的Gemini 1.5 Pro。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  谷歌发布的视频中,Project Astra能识别各种物体,说出代码的功用,并与人类实时沟通,延迟上与GPT-4o没有明显差异。Project Astra还能与谷歌AR原型眼镜“梦幻联动”,为佩戴者描述周围场景,并根据佩戴者的反馈补充细节。这一应用有可能力压OpenAI,在未来成为视觉障碍患者的福音。有业内人士分析,除了搜索引擎,谷歌在AI大模型领域还在拉平与OpenAI差距的过程中。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  在聂再清看来,两家公司接连发布多模态语音助手,在易用性方面迈出了一大步,让人窥见了未来通用语音助手的样貌。通用语音助手就是人类在数字世界里的代理或管家,可以帮人解决一切数字事务,包括安排日程、整理和调用文件、利用知识指导学习、利用记忆推荐可能喜欢的产品等。未来随着模型吸纳的信息越来越多,语音助手会更加人性化、更加智能,做到真正的自然交互。随着视频能力的加入,除语音外,表情、肢体动作等也能够被模型解读,作为其决策的依据。有网友评论称,无论是GPT-4o还是Project Astra,其身手足以秒杀苹果的语音助手Siri。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  距离用户越来越近3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  OpenAI在发布会上表示, GPT-4o将在未来几周内分阶段集成至OpenAI的各项服务之中,包括还未面世的ChatGPT搜索引擎。许多业内人士对此次发布会上GPT-5的缺席表示惋惜,由于OpenAI在2022年底推出ChatGPT的时候,实际上已做出了GPT-4,因此有业内人士预测,带搜索引擎的GPT-5也许已“在路上”。英伟达高级科学家Jim Fan在X上表示,GPT-4o已经接近GPT-5,或许是后者的一次早期试水。据聂再清观察,目前还没有看到模型迭代的瓶颈,大模型的迭代速度有可能还会加快。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  奥尔特曼在X上表示,OpenAI致力于将GPT-4o免费提供给所有用户使用。以往,OpenAI发布新版ChatGPT模型时,通常会将其置于付费墙之后。如今,免费用户已经可以访问GPT-4o加持下的多项功能,例如分析数据、创建图表、撰写文件总结等,但不能使用图片生成功能。付费用户则可以享受5倍调用额度。谷歌在发布会中没有公布Project Astra的具体上线时间,预计很快会登录到安卓、iOS等平台使用。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  对开发者来说,GPT-4o的定价也更友好。OpenAI官网显示,从GPT-4开始,输入单位文本的价格一直在下降,相较GPT-4 Turbo,GPT-4o收费降低50%,调用速度却提升了两倍。这使其在商业应用上有了更大吸引力。聂再清表示,大模型控制价格的方式之一是提升模型性能,用更少的资源做更多的事;另一个方式则是通过类似搜索引擎的商业模式,对用户免费,但可以收取广告商的赞助。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  至于未来OpenAI和谷歌的大模型有没有开源的可能性,聂再清表示,参考iOS和安卓,一个闭源一个开源,未来的大模型市场也极有可能出现开源和闭源的巨头。用户体验最好的行业领先者倾向于闭源,而开源的好处在于可以集体将模型“做大做强”,二者在市场都有自己的位置。谷歌在发布会中推出了其首个视觉语言开源模型PaliGemma,针对图像标注、视觉问答、图像标签化等方面进行了优化。此外,谷歌还将在6月推出更大规模的开源模型Gemma 2 27B。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  OpenAI也同步发布了适用于macOS的ChatGPT桌面应用程序,使用户调用的体验更丝滑。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

  GPT-4o加持下的通用语音助手在未来将有广泛应用,例如健康管理、医疗咨询、教育教辅等领域。聂再清认为,所有开放领域用到的语音智能,例如购物App中的导购等,都可以加装类似GPT-4o的智能核心,增强用户体验。这类语音助手将离用户越来越近。3KW流量资讯——探索最新科技、每天知道多一点LLSUM.COM

本文链接:AI可以“做个人了”,怎么办http://www.llsum.com/show-2-6040-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 《黑神话:悟空》PC端定价268元:是理性还是退让?

下一篇: 网易游戏520的第十年:新品开道,常青筑基

热门资讯

  • 让肺部磁共振成像从“不可看”到“看得清”

    患者只需吸入特制的“氙气”,3.5秒后一幅人体肺部磁共振3D影像就呈现出来。影像中,气体可抵达肺部的位置清晰可见,患者的肺部微结构、气体交换功能情

  • 负碳复合建材助力减缓全球变暖

    美国太平洋西北国家实验室的科学家设计了一种复合装饰材料,可以储存更多二氧化碳,提供了一种既符合建筑规范,又比标准复合饰面板便宜的“负碳”选择。

  • 英伟达发布AI“超级芯片” 自称“非常、非常强大”

    据法新社3月18日报道,周一,美国半导体巨头英伟达公司发布了其最新型号的电子芯片,这些芯片旨在支持人工智能(AI)革命,英伟达正努力巩固其作为人工智能领

  • 自主研制!哈工大“天都二号”探月卫星成功发射

    科技日报从哈尔滨工业大学获悉,北京时间2024年3月20日8时31分28秒,“天都一号”“天都二号”通导技术试验星伴随探月工程四期鹊桥二号中继星任务搭乘

  • 来看金星土星“亲密一刻”

    3月22日黎明,太阳系中最明亮的行星金星与太阳系中拥有最多卫星的行星土星将在东南方低空近距离相伴,上演“结伴游”。北京星空摄影爱好者王俊峰2023

  • Kimi概念股风起:月之暗面的资本征途与技术突破

    21世纪经济报道记者雷晨 北京报道随着人工智能技术的飞速发展,Kimi概念股成为资本市场的新宠。3月21日,受Kimi智能助手技术突破的催化,相关概

  • AI伴侣能否带来亲密关系

    自2023年以来,人工智能的“触角”已延伸到生活的方方面面。其中,“人工智能+情感”的赛道正悄然崛起。目前,国内外已经出现了多款较为成熟的AI伴侣应

  • 全球首列氢能源市域列车完成满载运行试验

    3月21日上午,全球首列氢能源市域列车在中车长客股份公司(以下简称“中车长客”)试验线上进行了时速160公里满载运行试验。当日试验过程中,车以160公里/

  • 荣耀Magic6 RSR 保时捷设计首销卖光:9999元供不应求

    3月23日消息,荣耀Magic6 RSR 保时捷设计于3月22日正式开售,售价为9999元。该款电话首销当天即被抢购一空,荣耀商城显示,下一轮销售时间将是3月29日上午10:0

  • Kimi掀起国产大模型长文本竞赛

    作为月之暗面的创始人,杨植麟常把他的AGI梦想形容为“登月计划”,长文本就是这个伟大计划的第一步。但现在,随着Kimi的爆火出圈,赛道瞬间变得

  • 第三颗“厦门造”卫星出征

    3月23日,“天卫科技03星”暨“华祥苑壹号”卫星在厦门举行出征仪式,这是由厦门本土企业天卫科技制造研发的第三颗服务当地建设的商业卫星,标志着厦门

  • 新技术破解结核病“早发现早治疗”难题

    3月24日是第29个世界防治结核病日,我国的宣传主题是“你我共同努力,终结结核流行”。在北京大学社会化媒体研究中心21日举办的“技术升级,加速我国终

推荐资讯

  • 日榜
  • 周榜
  • 月榜