设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

阿里数赛首次向AI开放!知乎网友:给AI捏了把汗,该防止人类替考

2024-03-15 12:36:34 来源:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

【新智元导读】一年一度的阿里全球数学竞赛又开始了。本届最大的亮点,首次向硅基AI开放,最高可摘得1万美金大奖。不用等了,带着你的AI来挑战吧。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

首个专为AI敞开大门的数学竞赛来了!Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

今天,2024阿里巴巴全球数学竞赛开启报名,首次向AI开放。要求很简单,就是用AI完成预选赛的题目,第一名奖金高达10000美元。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

消息一出,没想到,向来不爱数学的网友反响出奇的热烈,疯狂@各路大模型参赛。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

相关话题还冲上知乎当天的热榜。有网友表示,作为曾经的数学爱好者,如今的AI爱好者,表示双厨狂喜。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

当然,也有认真学习的网友,对AI参赛很兴趣,现在 AI 解决一些常规的计算题都有可能出错,不知道如何解答竞赛的证明题?Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

也有参加过往届竞赛的网友直言,AI估计没戏,阿赛都是出的没有直接解答和解题思路参考的新题,不是靠储存和搜索就可以的。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

不过也有网友发现比赛真正的槽点,23333Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

都说万物皆可AI,用AI来做数学题,是否很简单呢?激动的小编决定一试,就用当前地表最强的大模型GPT-4和Claude3Opus练练手。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

与地表最强AI组队考试是一种怎样的感觉?Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

从过往三年阿里数赛的真题,小编选出了一道看着人人易懂的题目,让两个大模型去完成。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

这是一个非常有趣的抽鬼牌游戏。A有n张牌(两两不同),B手中有n+1张牌(n张牌与A相同),只有一张是鬼牌。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

游戏规则也很简单,A和B互相从对方手中抽牌,A先开始,若抽到牌与手中某张牌一样,将其丢弃。最后手里有鬼牌的人,就是loser。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

假设每次从对方手中抽到任意一张牌概率相同,那么,n等于多少的时候,A的胜率最高?Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

GPT-4定义一个递归函数来计算A的胜率。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

具体函数代码过程如下:Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

A在第一次抽牌时,抽到鬼牌的概率:1/ (n +1)。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

A没有抽到鬼牌的概率:(n / (n +1)) * (1- A的胜率(n -1))。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

然后,A获胜的总概率等于上面两个加起来:1/ (n +1)+ (n / (n +1)) * (1- A的胜率(n -1))。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

最终将n = {31,32,999,1000},分别计算,最终ChatGPT得出了n=31时,A的胜率最大。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    defA_win_probability(n):#Basecase:ifonlytheghostcardremains,Aloses,sotheprobabilityis0.ifn==0:return0Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    # Probability of A drawing the ghost card on the first draw. prob_A_draws_ghost =1/ (n +1)Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    # Probability of A not drawing the ghost card and then considering the outcomes # of the remaining game, which behaves like a game starting with one less card # (since A will draw a matching card and both will be discarded). prob_A_not_draw_ghost_and_wins = (n / (n +1)) * (1- A_win_probability(n -1))Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    # Total probability of A winning. return prob_A_draws_ghost + prob_A_not_draw_ghost_and_winsIjh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    # Calculating A's win probability for the given n valuesn_values = [31,32,999,1000]win_probabilities = {n: A_win_probability(n) for n in n_values}Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    win_probabilitiesIjh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    再来看看号称干翻GPT4的Claude3Opus表现如何?Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    在具体的分析过程中,Claude3Opus将游戏最终结果只归因于A和B的抽牌顺序——根据题目已给条件,是让A先抽的牌。然后,它又将A和B手中的牌加到一起,共有2n+1张牌,然后得出谁抽到最后一张牌,谁就输。Claude3Opus给出了A获胜的条件,就是B抽到最后一张牌,简言之,一共进行奇数次抽牌,A就获胜。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    最终,模型将获胜率转为了鬼牌的奇偶率,得出了当n为偶数时,A获胜率大于1/2。因此,根据选项,得出了n=32,胜率最大。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    官方的正确答案是B,n=32。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    GPT-4显然挑战失败了,而Claude3Opus虽然答对了,但严格来说,算懵对。逻辑却出现了前后不吻合的情况。这种情况如果算过程分,也只能拿零分。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    经过实测,任何一个人都可以理解的题目,但对于AI来说,却不一定。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    大模型需要将题目转化为形式化的语言,也就是计算机可以理解的语言,然后根据已有的知识进行推理计算。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    GPT-4与Claude3Opus在回答复杂数学问题的状况,跟下图一模一样:Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    学好数学,对AI同样重要Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    在数学解题能力上,即便是地表最强AI,也暴露出不少缺点。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    直接上结论吧,AI今年应该还赶不上人类选手的水平。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    但是未来差距无疑不断缩短,甚至于超越。如果这一旦发生,会倒逼提升竞赛难度、也会让人类选手迸发更大潜能。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    写到这里,开始有点理解,阿里为什么要举办AI数学比赛了。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    数学之于AI,AI之于数学,是相互相依的关系。在追上人类前,AI也许可以成为学生和数学家的助手,发挥搜索、记忆以及计算速度上的优势,帮助人类去解题。而另一方面,没有数学理论的支持,AI也很难行稳至远。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    就连菲尔兹奖得主陶哲轩本人,第一时间将ChatGPT加入工作流,并预言:Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    2026年,AI将与搜索和符号数学工具相结合,成为数学研究中值得信赖的合著者。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    在最近接受Quanta Magazine的采访中,他还着重强调了,AI可以让数学家大规模合作,让更多业余爱好者参与进来,为数学做出有意义的贡献。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    数赛组委会成员、达摩院决策智能实验室的负责人印卧涛表示,引入AI给大赛带来一个新视角,让大家可以一同见证AI在逻辑思维和解题方面的能力。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    花式整活儿背后,推动数学与AI的发展Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    原来,这也不是阿赛第一次整活儿。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    今年已是第六届的阿里全球数学竞赛,每年都吸引了全球各行各业的选手参与,比如退休教授、律师、船员、编剧、快递员等等。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    2023年阿里数赛中,一位95后快递小哥就成为了那个民间高手。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    白天忙着送快递,晚上还要留出时间专研数学。他仅用了两周的时间,证明了欧拉常数有关的13个公式。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    仔细一想,今年阿里首设AI数学挑战赛,对公众而言也是一场很好的数学科普。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    原来不仅我觉得数学难,AI也觉得难,还是踏踏实实的学习吧(狗头Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    组委会方面表示,数学本身就是AI的基础,后续还会去解读一些优秀AI背后的数学原理,向公众展示数学对于AI的重要性和应用前景,希望能够提升大众,特别是青少年对基础学科的兴趣。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    此外,可预想的是,比赛定会吸引一大波码农前来参赛,说不定数学题还没解出来,却在过程中发掘出新的AI训练方法,新的算法,反过来推动了AI 的进步。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    听说,魔搭社区已经发起号召了,就等着大神来揭榜。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    相信重赏之下,必有勇夫,有着自己路数的AI必然让人期待。Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    还在等什么,快点击报名链接或扫描二维码,带着你的硅基宝可梦来挑战吧!Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    中文报名链接:Ijh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    https://damo.alibaba.com/alibaba-global-mathematics-competition?language=zhIjh流量资讯——探索最新科技、每天知道多一点LLSUM.COM

    本文链接:阿里数赛首次向AI开放!知乎网友:给AI捏了把汗,该防止人类替考http://www.llsum.com/show-3-12853-0.html

    声明:本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

    上一篇: 6.98万的比亚迪,谁在买?

    下一篇: 三星八核相当于骁龙多少「骁龙8 Gen4旗舰首发!三星将率先量产LPDDR6内存」

    热门资讯

    推荐资讯

    • 日榜
    • 周榜
    • 月榜