论坛观点

孙茂松:人工智能大模型未来的创造力将彻底改变人类认知与创新的方式

发布时间:2024年10月29日         来源:         点击次数: 次         【 打印


9月28日,2024清华五道口首席经济学家论坛成功举办。论坛汇集20位来自全球著名机构的首席经济学家与行业领军专家,聚焦“全球产业结构变革与经济展望”,围绕产业变革、货币政策、财政政策、人工智能、气候变化与新能源产业等细分主题,对中国经济与全球经济作出前瞻性分析,为经济发展政策提供新思路。本次论坛由清华大学五道口金融学院主办、国际金融与经济研究中心(CIFER)承办,线下举办、全网直播。清华大学计算机科学与技术系教授,欧洲科学院外籍院士孙茂松出席会议并参与讨论。

孙茂松指出,人工智能大模型当前正处于一个重要的发展节点,人工智能这艘“轻舟”正“待过万重山”,它仍面临着巨大的挑战和未解的难题。其未来的潜力无可限量,大模型不仅在自然语言处理和生成方面显示出强大的能力,它已经开始在多领域的创新与突破中展现出巨大前景。事实上,强化生成化AI的定义可以更加宽阔一些,在任何子领域表现出巨大自我学习能力以及创造能力的AI均可以被看作是强化生成式AI。这一点在创造模式上尤为明显。通过“下一次预测”的策略,AI可以从海量数据中自动学习并生成符合规则的内容,比如古诗、文学创作乃至科学发现,这不仅仅是对过去的简单模仿,而是对深藏在数据中的规律进行挖掘,进而实现创新。生成古诗的AI集中展示了人工智能如何突破传统创作的局限,甚至在某些情境下产生出新颖且深具情感的作品。


这一模式的影响不仅限于艺术创作,它也在科学研究、材料发现等领域逐渐展现出巨大的潜力。人工智能的大模型正推动着整个社会向一个更高效、更创新的方向迈进。面对这些技术进步,以后的研究者应该更加关注如何利用这些新兴技术解决复杂的现实问题,并深刻思考如何在保持人类独特创造力的同时,让人工智能为人类社会的进步服务。


18122

图为孙茂松发言


发言速记

清华五道口首席经济学家论坛


清华大学计算机科学与技术系教授,欧洲科学院外籍院士孙茂松:


谢谢潘老师。我跟潘老师说我最后讲,因为大学对经济学确实不懂,他们三位都是在一线的,因为讲得比较到位,我在后边汲取点经验,他们讲过的我就不讲了。


实际上我这个标题用了一句古诗“轻舟已过万重山”,其实这个“已过”我改了一个字,叫“轻舟待过万重山”,就是等待过万重山。人工智能大模型确实是一个轻舟,具有居高临下、一泻千里的这种能力。但是,现在确实它还没有过这个万重山,待过万重山,前面还会有很多夔门,还会有很多险阻,并不是一帆风顺的,应该有很多新的探索。但一旦下去,就是有句话叫“蜀人出夔门则为龙”,小川就是出了夔门就是龙了,他的前景应该是非常好的。


大家知道GPT,ChatGPT的GPT是核心。做这件事充分体现了我们古人的哲学,叫“大道至简”。它用的一个基本策略非常简单,就一条,我们大家都熟知,叫Next Token Prediction,这件事其实不是一个简单的工程的这么一个问题,是一个科学问题,看起来简单,实际上简直不简单,做这件事100年前,世界上伟大的数学家马尔可夫,他的马尔可夫模型差不多就是下一次预测。Claude Elwood Shannon在40年代研究信息论的时候,信息熵它也是在这个环节下,但他们都没有解决好这个问题,ChatGPT解决了这个问题。但其实这里边有理论工作,但大家有时候说ChatGPT不深刻,就是这么一招,其实有理论问题。


有一位学者作所罗门诺夫,他实际上参加了大家熟知的1956年的达特茅斯会议,那个会议提出了人工智能这个说法,其实不仅仅提出这个说法,他有一个非常深刻的报告,大家可能都没有关注它。所罗门诺夫是左边第二位,他们都是年轻人,大概30岁左右的年轻人,除了当时已经功成名就的信息论之父Shannon,其他的都是年轻人。通过这件事,最后大家经过发展,基本上都获得了图灵奖,都成为世界人工智能的翘楚人物。在这个会议过程中,所罗门诺夫就写了一篇文章,就提出了那个想法,其实就是下一次预测。后来60年代他写过一篇长文,从理论上,数学的角度验证了这件事。所以,这个实际上是深刻,大家不要以为一听,好像不深刻。


通过这个策略,做到了一箭三雕:第一,就是它会造句写文章。它会学习和运用语言知识。同时,它会学习并存储世界知识,通过下一次预测,就克服了知识图谱的毛病。它的准头不一定那么准,比如说八成准头,但是它覆盖面广,互联网上覆盖了,和知识图谱正好形成了鲜明对比,知识图谱是准头可能100%,但是它要人工建设,它的覆盖面我估计不超过5%,所以它不好用。第三,它会学习逻辑推理,就是文本中的所有推理它会掌握。所以,这是一箭三雕,这件事实际上是非常不简单的,我说是人类有史以来,第一次做到这三件事,这三雕,我们基本上抓了七八成,八九成,大概是这么一个问题。


我说生成式人工智能开启了人类全新的创造模式,我觉得这是这个模型带给我们最重要的东西。基本上我很早就在压力用人工智能写古诗,大概在2014年,我就拿写古诗为例,这个比较形象,谁都可以听懂。比如说,我让计算机写首五律,我首先是根据人类已经写的这个五律,大概不超过100万首,大概五六十万首纯是五律。我用大模型,就用Next Token Prediction的策略,全自动地去学里边的规律,然后我就可以写诗,就可以写五律,写五律它的创作空间实际上是非常非常大的。


举个例子,比如写诗要一个字一个字往下写,比如《康熙字典》是48000字,我其实第一个选项有48000个,但是你不是每一个都选一个,因为不是每个字都适合做开头。假设给定开头10个字,经过统计,有10个字是最常见的,我就取10个字,这样的话是比较保守,比较可靠的一个来法,保证你写的诗是通顺的,这个可以想象。


然后,你每一个地方,每产生一个字就是过一个路口,大概是5×8,40个字,过40个路口。40个路口,每个路口选10种可能,大概会产生多少种不同的五律呢?这很容易算,就是40个10连乘,1040。这个数一算,108次方是一亿,10的40次方是一亿亿亿亿亿,这么多。所以,这么多诗,五律,古人还没有来得及写完,他只写了不到100万首,我们大概一两千年,人都死光了,诗还远远没有写完,大概是这样。所以,实际上我们现在创造模式,就是你根据这个小圈,它产生了一个中圈,就我刚才说的一亿亿亿亿亿,那个量是非常大而且更重要,它写得基本上是靠谱的。


我举个例子,杜甫的《五律·旅夜书怀》非常有名,我相信很多人都会背下来。计算机写不出这么高水平的诗,我也让它去写五律,大概写了一堆,用这个可以写一堆五律,我放了三首,我一个字没改,完全是计算机一个字一个字写的。我念一首,后面让大家对模型的能力也有一个直观感受。


“酒尽寒宵烛,凄清感旧游”,这个实际上一个是扣夜,酒尽寒宵,一个是扣旅,感旧游,扣题很好。后边都是乡怀,“乡心随水远,别恨逐年稠”,对仗对得非常公。“生计愁中悟,归期梦里谋”,我一看生计愁中悟,感觉有点现在的色彩,确实我们是在一个现代的模型基础上再去训练这个古诗词,所以一些现代人的感情能带进来。“归期梦里谋”,这个“谋”字我当时一看,觉得写得非常好,“谋”,它不光是私,“谋”,的话,就有点像杜甫那个“即从巴峡穿巫峡,便下襄阳向洛阳”,就是它有一种更具体的私,其实更浓厚,我一看它写得挺好。然后,“何当脱尘鞅,一笑拂吴钩”,我一看诗没写好,商鞅变法的“鞅”,“鞅”就不对了,因为古诗词是讲平仄的,这个地方应该是个仄声字,如果“鞅”平声就不对了,我赶快翻字典,我不太懂,翻古字典,一看不对,这个确实有两个音至少,一个是商鞅的“鞅”,那是牛拉车的那个行头,还有一个念yang(四声),“鞅”是什么?郁郁不乐。所以,实际上这是念“yang”(四声),怎么样我才能脱离掉城市的郁郁寡欢的烦恼呢?因为都“生计愁中悟了”,然后“一笑拂吴钩”,情绪又上来了。


所以,这一块儿你会看这首诗,它加韵,“忧、愁、谋、钩”都非常好,对仗中间四句非常公,平仄的“鞅”我刚才讲了,但其实还有一个,“酒尽寒宵烛”,你要懂诗的人,这个“烛”字不对,“烛”应该仄声。一看“烛”你认为是平声了,实际上不是,“烛”在平水韵古音是入声字,是“仄”。


所以,实际上它从不到100万首五律中去学,里边隐藏的所有的规律它都学会了,人不用去教它,也没地儿教它去,这个模型不需要人教,你是一个诗人,你想教它,对不起,不用你,你的位置,你的贡献就是什么?你把诗写出来,放到这个大数据里边,这纯粹是数据驱动的一个方法,然后它完全把这个东西学会了。


所以,实际上大模型最大的一个威力就是它能够把隐藏在数据中的,深藏在数据中的你说不清道不明的东西无师自通地给你学会了,它写出的五律完全符合规矩,这是我们以前所有机器学习方法不可能做到的。然后,你还可以变花样,你说写五律,咱们写七律行不行?七律也可以写。


“一囊行李又匆匆,夜雨潇然客梦中,万里乡心归雁外,半床秋色乱蛩中”。我当时一看,真是给它打动了,“半床秋色乱蛩中”。“蛩”是蟋蟀,为什么是半床?我当时一想有道理,你躺在床上,辗转反侧睡不着,留出半床。秋色月光、乱蛩,蟋蟀叫,好像很吵很闹,实际上反映出你内心的孤寂。


岳飞有一首词叫《小重山》,他的词叫“昨夜寒蛩不住鸣。惊回千里梦,已三更”,“寒蛩不住鸣”,把梦给叫醒了。“起来独自绕阶行,人悄悄,帘外月胧明”,完全是这个意境,就是静,好像很闹,其实是一种孤寂。


所以,我当时一看,写得还真是不错。不知道古人写没写出来这个,因为这个大模型有可能是背下来的,我没查,以前我是会查这个东西,这次没来得及查,你们可以查查,搜韵还是哪儿,去查查古人有没有写出来?我估计可能古人没写,所以它有创造性。


这件事,其实这个模式,我是拿写诗举例子,其实我们这两年一些重要的科学发现都是靠这个套路来的。


比如说,去年11月,Google DeepMind就是做Alpha Go那家公司,把我刚才讲的这套东西用于发现新材料,它的《Nature》的文章叫“Millions of new materials discovered with deep learning”,发现了数以百万计的新材料。这个道理跟我刚才写诗是一样的,是通的。


我们实际上现在有了感知、认知兼具的多模态大模型GPT-4o,随便拍个图片,它的理解能力实际上是非常强的,刚才小川说代码能力也非常强。o1出来,其实这玩意儿从文科生变成了一个理科生,大概是博士理工科生,博士水平的。所以,现在实际上这些个能力大模型都有了,那我们传统讲的三大,大模型、大数据、大算力,这条道其实还在往前走,远远没有到头。虽然有各种声音,实际上我们陪着玩不起了,它太贵了。


最近国外有一个估计,GPT-4 2022年大概是1万张H100的卡,买这个东西大概到5亿美金,2030年大概会用1亿张卡来算,1万亿美金,大概建这个资源,耗电估计是全美电量的20%,所以是这么一个来法。其实我们是希望大模型出现所谓的性能涌现、能力涌现。为什么我们会赌这个东西,因为它会以一种意想不到的方式来完成任务,现在它初步有了这个能力。


快慢系统,刚才周总和小川也说了,这个丹尼尔就是诺贝尔经济学奖,就是这本书,其实现在大模型快慢这个能力好像都有了大概八九成,所以现在大模型、人工智能越来越像人的大脑了,不管是快还是慢的,都是难的,都是不容易的。


我们再往下走是具身智能,时间关系就不讲了。这件事刚才也说了,其实中国在世界上是排在第二,美国是第一。我们应该有大模型的思维,其实大模型用大科学上,可能更加顺手,用到一些我们搞不清的复杂问题上,可能更容易上手。在那种启发人类重大思想的问题上,什么幻觉之类通通不重要,重要的在启发。所以,已经有若干个例子了。包括Alpha Chip,这两年设计芯片,这已经到工业界了,这应该也是一个革命性的东西。这一块儿也在做一些工作,我就不讲了,我们也在做3D,结合具身智能做一些东西,我就不讲了。


8分钟过得快,有一句话叫“事去千年犹恨速,愁来一日即为长”。所以,这个东西将来还是很有挑战的,世界模型,我感觉现在大模型最重要的在咱们这个场合就是什么?就是套用过去“文革”时期我们学的一句话,叫“到科学领域去,到产业行业去,到大模型最适合又最需要大模型的地方去”。我先讲到这儿,谢谢大家!