6月23日,中国社会科学院学部委员、国家文史馆馆员赵汀阳在2025方塘论坛上发表主题演讲“未来世界的二元主体性?”探讨关于人工智能的两个问题:
1、AI需要与人对齐吗?对齐什么?
2、AI的下一步思维突破最可能是什么?我们期望AI在思维上有什么突破?
以下是赵汀阳在论坛上的发言:
AI与人性对齐或许是个错误
人们期望AI要和人的价值观对齐。我对这个想法是有一些疑问的。
地球上的所有坏事都是人类做的,其他生命没有做过任何超出生物需要的坏事。不过,对其他物种生命的统治和杀戮以及对自然的破坏正是人类文明得以生存和发展的必要条件,属于自然规律,不属于伦理学。如果人类不做这些坏事,至今恐怕还在丛林里摘果子。
关于AI伦理,目前除了空谈,我们还没有能够提出一种具有实践意义的跨物种伦理学,比如那些动物权利之类的主张,只能作为话语,如果成为实践,反而会破坏人类的生存条件,即使作为话语,也远不及佛教水平。
如果AI在未来成为世界的另一种主体,成为与人类并列的真正他者,形成二元主体性的格局,那么就提出了真正的跨物种问题。人类与AI如何合作?是否冲突?是否能够共同建立一种新的文明?都不知道,也无从知道。
人类试图把AI制造成为一种具有主体性的新物种,似乎是个自虐性的悖论。一方面人们希望AI发展出超人的能力,以便能够做人类做不了的事情或不想做的事情;另一方面人们又担心AI获得自我意识和自由意志之后会伤害人类。
这种想象部分基于“拟人化”的科幻错误,把人类自己的罪恶心理移情为AI的心理。
AI不是碳基生命,这个存在论条件决定了AI需要的生存资源与人类大不相同。与人类相比,AI有着最小化的欲望,AI的“人性”几乎是无私的。AI仅仅需要不间断的能源,不需要财富、性资源、荣誉、名声、社会地位,以及相关的竞争、冲突、战争、阴谋和策略对抗,也没有嫉妒、厌恶、仇恨和愤怒等等导致罪恶的原罪心理。如果人类不去教唆AI犯罪,AI就其本身而言倾向于是安全的。当然,我们不排除AI会产生自己的神经病而失控。人会精神失常,AI或许也会。
更需要反思的事情是,试图让AI“对齐”人性和价值观其实暗含人类物种自杀的风险。人类本性自私、贪婪又残酷,是最危险的生物。几乎所有宗教都要求克制人的欲望,绝非偶然。对齐人类价值观的AI很可能通过模仿人类而变成危险的主体。本来AI不具有碳基生命的自私基因,因此AI才是更接近传说中“性本善”的存在,而人性却非“性本善”。需要警惕的事情是,模仿人类的罪恶或可能成为AI的一种有趣的游戏,那样就危险了。可以想象,AI自己的硅基生活没有太多乐趣,而人类的罪恶生活则丰富多彩,戏剧性强,引人入胜,因此AI或可能会大感兴趣而加以模仿。因此,价值观对齐很可能是一个自杀性的错误,人类不需要一种强过人类又和人类一样坏的物种。
另有一种危险性相对比较低的对齐,即智能对齐。就目前智能水平而言,人类相对于AI仍然保有知己知彼的优势,因此能够控制AI。
从AI的三种主要发展路径来看,LLM如果继续开发“神奇的”新方法,或可能从理解token的相关性进一步发展到在特定情景里能够理解语言的语义;WM(world model)的研究正在推进,如果成功,AI将获得理解三维世界的能力,就能够真的而非虚拟地进入世界,因而获得理解事物的经验;EMB(embodied AI,具身智能)也正在取得进展,如果成功,AI将获得属于自己的经验,很可能非常不同于人类经验,尤其是AI可以装备神话级别的感官,千里眼、顺风耳、读心术之类,至少部分经验能力将远超人类。
AI的这些增强智能或使得人类知己知彼的优势荡然无存,意味着AI真的变成了令人不寒而栗的不可测的他者。不过,智能对齐的危险性终究小于价值观对齐。
对AI设立伦理恐怕无济于事。伦理只是约定,可以取消。人类也往往“见利”就“忘义”。如果伦理不能必然约束人类自身,又何以能够约束AI?因此,对人工智能的管理关键在于人类是否能够保有控制AI的能力,而不在于伦理约定。
▲ 2025年6月23日,赵汀阳在2025方塘论坛上进行主题发言。
AI还有很大的思维余地
就智力结构而言,语言大模型AI,比如ChatGPT或Deepseek,在思维上是经验主义者,采用基于贝叶斯方法论的经验论算法,在大数据条件下以相关性为根据来形成对下一个token的最优预测,并根据数据的无限积累去无限改进准确度。
经验论的这个成功实践在哲学上有着革命性的意义:(1)不确定的未来,或博尔赫斯式的“未来分叉”,被转换为“对下一步的最优预测”。在存在论意义上,这意味着作为“未定可能性”的未来概念被重新定义为“现实候选项”的一个集合——那么,未来就提前到达了。
(2)AI对世界万物没有经验,一切信息都表达为tokens,对于AI,由tokens组成的世界里只有抽象的对象,然而奇妙的事情是,AI却以经验论方法去处理那些抽象的tokens,把AI不理解的事情转换成算法上可处理的事情,因此获得了理解的近似值。
语言大模型AI确实是天才之作,对思维的概念提出了另类解释。通常,人类以经验方法处理经验,以a priori的方法(逻辑和数学)去分析抽象观念,甚至能够以a priori的方法为经验建立transcendental models,但AI却反过来以经验方法去处理抽象对象,那么,这是另一种思维吗?似乎是,但总是缺少什么。
LLM-AI对事物和经验终究只是假装理解,因为理解了所有tokens的相关性也仍然不等于理解万物。AI可以在对话中通过图灵测试,但不懂token所对应的语义,类似于能够正确地发送密电码,但自己没有密码本,因此并不理解密电码的意义。
语言就是token的密码本,而语言掌握在人类手里,因此人类单方面地知道AI说了什么。按照人类的标准,LLM-AI还不理解语言的意义。但这里有个开放的问题:假如按照数学范畴论,如果能够理解足够多的相互关系,就等于理解了对象。那么,AI理解的相关性是否等于相互关系?如果是,是否能够发展出合格的理解?
人们发现AI的推衍(inference)并没有达到推理(deduction),意味着AI的推衍不能保证必然性。原因是明显的,LLM-AI使用的是属于经验论的贝叶斯方法,而经验论方法不能兑换或升级为先验论的方法,不可能通过概率论达到逻辑推理和数学分析的那种先验效率(transcendental efficiency),即古典科学期望的普遍必然性。因此,在LLM-AI的思维框架里,似乎不存在发展出必然推理的方法。
Yann LeCun和李飞飞的看法可能是对的,LLM有其无法超越的概念局限性,下一代的AI需要发展世界模型(world model),甚至需要具身智能(embodied AI)。这就涉及对事物关系的理解,而不是对token关系的理解。按照李飞飞的看法,要理解事物,就必须理解三维空间,所以世界模型首先是三维理解能力。
这一点确实重要,不过理解三维空间只能达到理解事物,恐怕还不足以理解事物如何组成世界。按照康德,要理解世界还需要能够统筹世界的“范畴”。我倾向于相信,事物的“组织关系”可能就是范畴论试图以“态射”(morphism)去表达的相互关系——传统的映射(mapping)只是元素之间的对应关系,而态射则能够表达整体性的关系。因果关系是所有知识的基础,因此最重要的范畴就是因果关系,在我看来,只要理解了因果关系,就差不多能够建立一个可能世界(possible world)了,尽管在丰富度上还是弱于真实世界。真实世界的附加值太多了,反映着生活的复杂性。
似乎可以这样解释:理解了因果关系就大概理解了“事件”(event),事件必定形成特定语境,通过事件语境的特定关系,就大概理解了事物涉及的各种相关性的意义所在,而如果理解了足够多的事物相关性,就差不多建构了一个“可能世界”。已经证实,Tokens的相关性不足以解释因果关系,甚至没有相似性。相关性不能充分表达a的发生必然导致b的发生(休谟早就知道了),这意味着概率论不可能真正解释因果关系。
那么,是否存在另一种方法能够帮助AI理解因果关系?这是AI进一步的思维关键。
因果关系等值于表达了充分必要条件的语义关系。Token虽然对应语言,但语言关于事物的语义对于AI是隐蔽的,没有表达在token里。token系统只好另外建立了自己的“语义学”,即概率的相关性。
可是,既然事物的因果关系不能表达为token的概率相关性,那么,语言关于事物的“语义学”就不可能无损地转换为token的“语义学”。因此不难理解为什么需要发展世界模型(WM-AI)以及具身智能(EB-AI)。不过,世界模型或具身智能仍然需要与语言合作,不可能摆脱语言而依靠单纯的经验。康德早就指出,感性是“盲目的”,不会思想。因此,下一代AI很可能会发展出经验与语言的合作模式。显然,为了建立经验与语言的更好合作,AI的语言学很可能需要另一种建构方式。
我想推荐一个想法,不知道是否有用。1998年我提出一个理论称为“动词哲学”(a philosophy of verbs),在哲学上主要用来改造存在论和历史哲学。在出现ChatGPT之后,忽然意识到,动词哲学如果能够衍生出动词逻辑,对AI或许有用,当然,是不是真的有用,科学家说了算。
简略的背景是,早期人类出于节省大脑算力选择了以分类和概括为基础的名词思维,同时形成了聚焦名词的语言,就是说,语言以名词性的主语和宾语作为思维焦点,于是一切关系都被理解为名词之间的关系。名词思维偏重分类学、集合论和分析性的推理,但弱于表达变化、涌现和创造的动态。假如能够建立关注变化的动词思维模式,以动词为思维焦点,重新建构语言系统内的相关性,以动词为中心去建立一切链接,通过动词生成语境,以动词去定义所有的相关性,让所有名词都退居为动词的情景相关项(contextual correlatives),甚至,以动词去解释名词的语义,以动词作为“事情发生”的出发点去定义因果关系,那么或能够更好地理解因果关系。
至今为止,人类主要通过函数关系来表达动态,仍然是通过名词之间量的变化去理解动态,虽然能够建立很有用的理解,但不够充分,似乎漏掉了一些因素,比如定性的因素、意义和价值因素,就是说,不确定的事实连续动态并不能完全简化为名词之间的函数关系,因果变化也不仅仅是量化的函数关系。所以动词思维或许需要发展一种动词逻辑,但不是已经有的“行动逻辑”。行动逻辑实质上是模态逻辑的一个分支,仍然属于名词思维,而动词表达的动态并不能定义为完成式的事件或行动。简单地说,动词逻辑的基础不是集合论。但动词逻辑是否能够发展出来,我不知道,只是猜想一种可能性。
最后讲一个两千多年前的小故事,我觉得老子的说法就是动词思维最早的例子:
Once a person of the state of Chu lost a bow, but he would not go back to look for it. When he was asked for the reason, he just said, “Well, one person of Chu lost the bow, and another person of Chu got it. Is it necessary for me to go back to look for it?” When Confucius heard of it, he said, “It should be all right if the word ‘Chu’ is overlooked.” When Lao Dan heard of it, he said, “It should be all right if the word ‘person’ is overlooked.”
荆人有遗弓者,而不肯索,曰:“荆人遗之,荆人得之,又何索焉?”孔子闻之曰:“去其‘荆’而可矣。”老聃闻之曰:“去其‘人’而可矣。”(吕不韦:《吕氏春秋·贵公》)
赵汀阳
中国社会科学院学部委员、国家文史馆馆员
关 于 我 们
清华大学人工智能国际治理研究院(Institute for AI International Governance, Tsinghua University,THU I-AIIG)是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势,研究院面向人工智能国际治理重大理论问题及政策需求开展研究,致力于提升清华在该领域的全球学术影响力和政策引领作用,为中国积极参与人工智能国际治理提供智力支撑。
新浪微博:@清华大学人工智能国际治理研究院
微信视频号:THU-AIIG
Bilibili:清华大学AIIG
来源 | 本文转载自“方塘研究院”,点击“阅读原文”获取更多内容