Wednesday, November 19, 2025

李飞飞:从文字到世界(from words to worlds)

微信2025-11-11)

                从文字到世界:空间智能是AI的下一个前沿

        1950年,当计算机还只是自动化算术和简单逻辑时,艾伦·图灵提出了一个至今仍回荡的问题:机器能思考吗?

         他能看到别人尚未看到的未来,需要非凡的想象力——那就是:智能或许有一天可以被构建,而非诞生

         这一洞见催生了一场持续至今的科学征程——人工智能(AI)。在我投身AI研究的25年中,图灵的愿景依然不断启发着我。但我们距离那一愿景有多近?答案并不简单。

         今天,以大语言模型(LLM)为代表的前沿AI技术,已经开始改变人类获取与处理抽象知识的方式。 然而,它们仍然是黑暗中的文字匠:能言善辩,却无经验;知识丰富,却缺乏根基。

         空间智能(spatial intelligence)将改变我们创造和交互现实与虚拟世界的方式——彻底革新叙事、创造力、机器人学、科学发现,以及更多领域。这,正是AI的下一个前沿。

         自我进入这一领域以来,对视觉与空间智能的探索就一直是我的北极星。这也是我为何花费多年时间构建了 ImageNet——首个大规模视觉学习与评测数据集。

         它与神经网络算法、现代算力(如GPU)一道,成为孕育现代AI的三大关键要素。也是为何我的斯坦福实验室在过去十年中,将计算机视觉与机器人学习相结合。

         同样,这也是我与联合创始人Justin JohnsonChristoph LassnerBen Mildenhall一年前共同创建 World Labs的原因:为了第一次真正实现这一可能性。

         在这篇文章中,我将解释什么是空间智能、为什么它重要、以及我们如何构建能够解锁它的世界模型(world models”——这种技术将深刻重塑创造力、具身智能与人类进步。

                      空间智能:人类认知的脚手架

        AI从未像今天这样令人振奋。以生成式AI为代表的模型,如LLM,已从研究室走向日常生活,成为数十亿人创作、生产与交流的工具。

         它们展示了曾被认为不可能的能力:生成连贯的文本、成山的代码、逼真的图像,甚至短视频。 AI是否会改变世界?——从任何合理的定义来看,它已经做到了。

         然而,仍有大量潜能未被触及。自动化机器人的愿景依然诱人却遥远;在疾病治疗、新材料发现、粒子物理等领域的研究加速梦仍未实现;

         真正能够理解并赋能人类创作者的AI,无论是学习复杂分子化学概念的学生、构想空间的建筑师、构建世界的电影人,还是任何希望沉浸于虚拟体验中的人都仍未到来。

         要理解为何这些能力依旧难以实现,我们需要回溯:空间智能是如何演化的?它又如何塑造了我们理解世界的方式?

         视觉长期以来是人类智能的基石,但它的力量源自更为根本的东西。早在动物能筑巢、抚育后代、用语言交流或建立文明之前,那看似简单的感知行为:感受到一缕光、触到一种质感就已经悄然点燃了通向智能的进化旅程。

         这种从外部世界汲取信息的能力,在感知与生存之间搭建起一座桥梁,而这一桥梁在漫长的进化中变得愈发复杂。

         神经元层层叠加,形成能解释世界、协调生物与环境互动的神经系统。因此,许多科学家认为,感知行动循环成为了智能进化的核心机制,也是自然孕育出我们这个物种的根基——一个能感知、学习、思考与行动的终极存在。

         空间智能在我们与物理世界的互动中扮演着基础性的角色。每天,我们都在依赖它完成最平常的动作。

         停车时想象车尾与路缘的距离;接住被抛来的钥匙;在人群中穿行而不碰撞;半睡半醒间准确地将咖啡倒进杯中。

         在极端情况下,消防员穿行于坍塌建筑与浓烟之中,瞬间判断稳定性与生死抉择,通过肢体语言和本能默契沟通——这些都无可言传。而婴儿则在学会语言前的漫长时光里,通过玩耍与环境互动来认识世界。

         这一切都在直觉中、自然而然地发生——一种机器至今未能获得的流畅能力。

         空间智能同样是我们想象力与创造力的基石。讲故事的人在脑中构建出丰富的世界,并用各种视觉媒介将之传达给他人。

         从原始洞穴壁画,到现代电影,再到沉浸式电子游戏。无论是孩子在沙滩上筑城堡,还是在电脑上玩《我的世界》,这种以空间为根基的想象构成了人与虚拟世界交互体验的基础。而在工业应用中,对物体、场景与动态交互环境的模拟则支撑着从工业设计、数字孪生到机器人训练等无数关键场景。

         历史上那些塑造文明的关键时刻中,空间智能往往扮演着核心角色。

         在古希腊,埃拉托色尼(Eratosthenes)通过对阴影的几何化思考完成了惊人的壮举——他在亚历山大测得太阳影子形成的7度角,并与赛恩(Syene正午无影的现象进行对比,从而计算出了地球的周长。

         哈格里夫斯(Hargreaves)发明的珍妮纺纱机同样源于空间洞察:他意识到只需将多个纺锤并列安装在一个机架上,一个工人就能同时纺出多股线,生产效率因此提高了八倍。

         沃森(Watson)与克里克(Crick)揭示DNA结构的突破,也依赖于他们亲手搭建的三维分子模型——他们用金属板与铁丝不断调整、拼接,直到碱基对的空间排布完美契合。

         在这些案例中,空间智能都推动了文明的进步——当科学家与发明家需要操纵物体、想象结构、在物理空间中推理时,这些能力是纯文字永远无法承载的。

         空间智能(Spatial Intelligence)是支撑人类认知的脚手架。

         无论是被动观察,还是主动创造,它都在默默发挥作用。

         它驱动我们的推理与规划,即便是在最抽象的主题上。它同样塑造了我们与世界互动的方式——无论是语言交流,还是身体行动,无论是与他人,还是与环境本身。

         虽然我们大多数人并不会每天像埃拉托色尼那样发现新的真理,但我们几乎时时刻刻都以同样的方式在思考通过感官去理解这个复杂世界,并依托对物理与空间规律的直觉认知,使其变得可理解。

         遗憾的是,当今的AI还无法以这样的方式思考。

         过去几年确实取得了巨大进步。多模态大语言模型(MLLMs),在文本之外又引入了大量多媒体数据进行训练,初步具备了空间感知能力:

         它们可以分析图像、回答与之相关的问题,甚至生成超写实的图像与短视频。与此同时,借助传感器与触觉技术的突破,最先进的机器人已经能在严格受限的环境中开始操控物体与工具。

         然而,坦率地说,AI的空间能力依然远未接近人类水平。其局限也显而易见:最先进的MLLM在估计距离、方向、大小等任务上,表现往往不比随机猜测好多少;它们无法心智旋转物体——即从新角度再现同一对象的形状;不会在迷宫中导航、识别捷径,或预测基本的物理规律;生成的视频虽然新奇炫目,却常在几秒钟后失去连贯性。

         如今的顶级AI擅长阅读、写作、检索与模式识别,但当涉及对物理世界的表征或交互时,却存在根本性局限。

         我们人类理解世界的方式是整体性的:不仅仅看到眼前的东西,还理解它们在空间上的关系、在语义上的意义、以及在现实中的重要性。

         而这种通过想象、推理、创造与交互来理解世界的能力,正是空间智能的力量。

         缺乏它,AI就与它所试图理解的物理现实脱节。它将无法真正安全地驾驶汽车、无法在家庭与医院中引导机器人、无法创造全新的沉浸式学习与娱乐体验、也无法加速材料科学与医学的发现。

         哲学家维特根斯坦曾写道:语言的边界就是我世界的边界。我不是哲学家,但我知道,AI而言,世界不止于语言。空间智能代表着超越语言的前沿

         它连接想象、感知与行动,为机器真正提升人类生活打开了新的可能:从医疗到创造力,从科学发现到日常辅助。

                    AI的下一个十年:构建真正具备空间智能的机器

        那么,我们该如何打造拥有空间智能的AI

         如何让模型具备:像埃拉托色尼那样的空间推理能力,像工业设计师那样的工程精度,像讲故事的人那样的创造性想象力,以及像应急救援人员那样与环境流畅互动的能力?

         要实现这样的AI,我们需要比LLM更具雄心的体系:世界模型(World Models)。

         这是一种全新的生成式模型,其在理解、推理、生成与交互方面的能力,将超越当今LLM所能触及的极限。它能够在语义、物理、几何与动态层面上,理解并生成复杂的虚拟或真实世界。

         这一领域尚处于萌芽阶段,现有方法从抽象推理模型到视频生成系统不等。

         World Labs成立于2024年初,正是基于这样一种信念:基础性方法仍在形成之中,而这将成为未来十年人工智能的决定性挑战。

         在这个新兴领域中,最重要的是确立指导发展方向的核心原则。对于空间智能而言,我将世界模型定义为具备以下三项核心能力的系统:

         1、生成性(Generative):世界模型能够生成具有感知、几何与物理一致性的世界

         要实现空间理解与推理,世界模型必须能够生成自身的模拟世界。

         它应能在语义或感知指令的引导下,生成无限多样、变化丰富的虚拟世界,同时保持几何、物理与动态上的一致性,无论这些世界是现实的还是虚拟的。

         研究界目前正在探索,这些世界应当以隐式(implicit)还是显式(explicit)的几何结构形式表示。

         除了强大的潜在表征(latent representations)之外,我认为通用世界模型的输出还应当允许生成显式、可观测的世界状态,以便适应不同的应用场景。尤其重要的是,模型对当下世界的理解必须与其过去的状态保持连贯一致——理解当前,就是理解它是如何演化而来的。

        2、多模态(Multimodal):世界模型在设计上就是多模态的

         正如人类与动物一样,世界模型应能处理多种形式的输入。在生成式AI领域中,这些输入被称为提示词(prompts

         面对不完整的信息——无论是图像、视频、深度图、文本指令、手势还是动作,世界模型都应能预测或生成尽可能完整的世界状态。

         这要求模型既要以真实视觉的精度处理图像输入,又能以同样的灵活性理解语义性指令。

         如此一来,无论是智能体还是人类,都能通过多样的输入形式与模型就世界进行交流, 并以多样的方式接收输出。

         3、交互性(Interactive):世界模型能根据输入动作输出下一个状态

         最后,当动作(actions)和/或目标(goals)作为输入提示的一部分时,世界模型的输出必须包含世界的下一个状态。

         这一状态可以是隐式的,也可以是显式的。当输入仅包含一个动作(有无目标皆可)时,世界模型应能生成与世界先前状态、预期目标状态(如有)、以及其语义意义、物理规律、动态行为相一致的输出。

         随着空间智能世界模型在推理与生成能力上不断增强,我们可以想象,未来模型不仅能预测世界的下一个状态,还将能够基于该状态预测下一步行动。

         这一挑战的规模,超越了AI以往所面临的一切。

         语言是人类认知中纯粹生成的现象,而世界遵循的规则则复杂得多。

         在地球上,例如:重力决定运动,原子结构决定光的颜色与亮度,无数物理定律约束着一切交互。

         即使是最奇幻、最具创造性的世界,也由遵守物理与动态规律的空间对象与智能体构成。

         要在模型中一致地协调这些——语义、几何、动力学与物理层面——需要全新的方法论。因为世界的维度远比语言这种一维的序列信号复杂得多。

         要实现像人类一样具备普适空间智能的世界模型,必须跨越若干巨大的技术壁垒。

         World Labs,我们的研究团队正致力于这一目标的基础性突破。

         以下是我们当前研究的几个方向示例:

         一种新的通用训练任务函数:在世界模型研究中,一个长期目标是定义一种像LLM下一个token预测一样简洁优雅的通用任务函数。然而,世界模型输入与输出空间的复杂性使这一函数的设计更加困难。尽管仍有大量探索空间,但这一目标函数及其对应表征必须符合几何与物理规律,忠实体现世界模型在想象与现实之间的落地表征本质。

         大规模训练数据:训练世界模型所需的数据远比文本复杂。好消息是我们已经拥有了庞大的数据资源。互联网上规模宏大的图像与视频集合为训练提供了丰富的素材。挑战在于:如何让算法从二维图像或视频帧(RGB)中提取更深层次的空间信息。过去十年的研究揭示了语言模型中数据量与模型规模的scaling law;对于世界模型,关键在于构建能够在相似规模上有效利用视觉数据的架构。此外,高质量的合成数据以及额外模态(如深度、触觉)的作用不可低估,它们在训练过程的关键阶段起到补充作用。未来的发展取决于更先进的传感系统、更稳健的信号提取算法、以及更强大的神经仿真方法。

         新的模型架构与表征学习:世界模型研究将不可避免地推动模型架构与学习算法的革新,特别是超越当下的多模态LLM与视频扩散模型(video diffusion)。这些模型通常将数据编码为一维或二维序列,使得简单的空间任务,例如在短视频中数清不同的椅子,或记住一小时前房间的样子变得异常困难。新的架构思路或许能改进这一点,例如具备3D4D感知能力的token化、上下文与记忆机制。例如,在World Labs,我们最近开发了一种基于帧的实时生成模型——RTFMReal-Time Generative Frame-based Model)。它以空间为基础的帧(spatially-grounded frames)作为空间记忆形式,实现了高效实时生成的同时,保持了生成世界的持续性与一致性。

         显然,在完全释放空间智能的潜力之前,我们仍面临艰巨的挑战。但这项研究不仅仅是理论工作,它正成为新一代创造性与生产力工具的核心引擎。

         World Labs的进展令人鼓舞。我们最近向部分用户展示了Marble的早期版本——全球首个可通过多模态输入生成并保持一致性3D环境的世界模型,让用户与创作者能够探索、交互并在其中继续构建他们的创意世界。我们正全力以赴,努力尽快将其向公众开放。

         Marble只是我们的第一步。随着研究的加速,科研人员、工程师、用户与商业领袖们都开始意识到这一方向的巨大潜能。下一代世界模型将使机器在空间智能上达到全新的层次,这将开启AI迄今仍普遍缺乏的核心能力,并真正让人工智能进入理解与创造世界的时代。

                     用世界模型为人类构建更美好的世界

        人工智能的发展动机至关重要。作为推动现代AI时代到来的科学家之一,我的动机始终十分明确:AI应当增强人类的能力,而非取而代之。

         多年来,我一直致力于让AI的开发、部署与治理与人类需求保持一致。

         当下关于技术乌托邦世界末日的极端叙事比比皆是,但我依然持一种更务实的立场:AI是由人开发、被人使用、并由人治理的。

         它必须始终尊重人的自主性与尊严。它的魔力在于拓展我们的能力,让我们变得更具创造力、更紧密相连、更高效并更有成就感。

         空间智能正体现了这一愿景——一种能赋能人类创造者、照护者、科学家与梦想家的AI,使他们实现曾经不可能的目标。这一信念,正是我将空间智能视为AI下一个伟大前沿领域的根本原因。

         空间智能的应用横跨不同的时间尺度。创作工具正在当下出现——World LabsMarble 已经让创作者与讲故事的人能够亲手掌握这种能力。

         机器人领域则代表着中期的雄心目标,我们正致力于完善感知与行动之间的闭环。而最具变革意义的科学应用可能需要更长时间,但它们将深刻地促进人类的福祉。

         在所有时间线中,有几个领域的潜力尤其突出,足以重塑人类的能力。要实现这些潜力,需要集体努力远超任何一个团队或公司的能力范围。

         它需要整个AI生态系统的参与:研究者、创新者、创业者、企业家,乃至政策制定者,共同朝着一个愿景努力。而这个愿景,值得我们追求。以下是未来的图景:

                 创造力:为叙事与沉浸体验注入超能力

        “创意,是智慧的乐趣。这是我最喜欢的爱因斯坦名言之一。

         在人类发明文字之前,我们就会讲故事——把故事画在洞穴壁上,代代相传,并以共享的叙事建立文化。故事是人类理解世界、跨越时空连接彼此、探索人之为人的方式,也是我们在生活与爱中寻找意义的途径。

         今天,空间智能有潜力彻底变革我们创作与体验叙事的方式,从娱乐到教育,从设计到建造,赋予它们更深远的影响力。

         World LabsMarble平台 将前所未有的空间表达能力与编辑控制权交到电影人、游戏设计师、建筑师及各类讲述者手中,让他们无需传统3D设计软件的繁复流程,就能快速创造、迭代、探索完整的三维世界。创造的行为依然是人类的核心活动——AI只是放大并加速创意实现的过程。这包括:

         多维叙事体验:电影人和游戏设计师可以利用 Marble 构建整个世界,不受预算或地理限制,探索传统制作流程中无法实现的场景与视角。随着媒介与娱乐的界限模糊化,我们正接近一种全新的互动体验形态——融合艺术、模拟与游戏的个性化世界,让任何人(而不仅仅是大型工作室)都能创造并进入自己的故事。

         以设计讲述空间故事:几乎所有被制造的物品或建造的空间,都必须在物理实现之前经过虚拟3D设计——这一过程往往耗费大量时间与成本。借助空间智能模型,建筑师可以在数分钟内可视化并漫游尚不存在的建筑;工业或时装设计师可以即时将想象转化为形态,探索物体与人体及空间的交互。

         全新的沉浸与互动体验:人类体验的最深层方式之一,就是创造意义的体验本身。在整个人类历史上,我们只共享一个三维世界:物理世界。直到近几十年,通过游戏与早期虚拟现实(VR),我们才得以初步窥见自造世界的可能。如今,空间智能结合VRXR(扩展现实)头显与沉浸式显示设备,将这种体验提升到前所未有的高度。未来,人们走进多维世界将如同打开一本书般自然。空间智能让造世界的权力从专业团队扩展到每一位拥有愿景的创作者、教育者与普通人。

                    机器人:具身智能的实践

        从昆虫到人类,动物都依赖空间智能来理解、导航并与世界交互。机器人也不会例外。

         自该领域诞生以来,具备空间感知的机器就是人类的梦想,包括我在斯坦福研究实验室与学生、合作者共同进行的研究。正因如此,我对用 World Labs 构建的模型实现这一愿景感到异常兴奋。

         通过世界模型扩展机器人学习:机器人的学习进步取决于可扩展的训练数据方案。要让机器人具备理解、推理、规划与交互的能力,它们需要覆盖极为庞大的状态空间。许多研究者认为,互联网数据、合成仿真数据与人类演示的真实采集三者结合,是实现可泛化机器人的关键。然而,与语言模型不同,如今机器人的训练数据极为稀缺。世界模型将在此发挥决定性作用。 随着其感知精度与计算效率的提高,世界模型生成的输出将迅速缩小模拟与现实之间的差距,从而让机器人能在数不清的状态、互动与环境中学习。

         人机协作伙伴:无论是实验室中协助科学家的研究助理机器人,还是陪伴独居老人的家用助理,机器人都可以扩展劳动力并提升社会生产力。但要做到这一点,机器人必须具备空间智能——能感知、推理、规划、行动,并且最重要的是:保持对人类目标与行为的同理一致。例如,实验室机器人可以替代科学家完成仪器操作,让人专注于需要推理的部分;家庭助理机器人则可以帮助老人做饭,而不剥夺他们的乐趣与自主性。真正具备空间智能的世界模型能够预测下一个状态,甚至推断与之匹配的下一步行动,是实现这一愿景的关键。

         扩展的具身形态:人形机器人只是我们为自身世界打造的一个形式。真正的创新红利将来自更加多样的设计:输送药物的纳米机器人、穿行狭窄空间的软体机器人、以及为深海或外太空而造的机器。无论形态如何,未来的空间智能模型都必须将环境与机器人自身的感知、运动一体化建模。但开发这些机器人面临的关键挑战在于:缺乏多样化形态的训练数据。世界模型将在这一过程中发挥关键作用——为仿真数据、训练环境与评测任务提供支持。

                 更长远的地平线:科学、医疗与教育

        除了创造性与机器人应用外,空间智能的深远影响还将延伸至更多能够增强人类能力、拯救生命、加速发现的领域。以下我将重点介绍三个具有深刻变革潜力的方向。当然,空间智能的应用远不止于此,它的影响范围几乎遍及所有行业。

         在科学研究中,具备空间智能的系统可以模拟实验、并行验证假设,并探索人类无法亲临的环境——从深海到遥远的行星。这项技术有望彻底变革气候科学、材料研究等领域的计算建模方式。通过将多维度模拟与真实世界数据采集相结合,这些工具能显著降低计算壁垒,拓展每一个实验室可观察与理解的边界。

         在医疗领域,空间智能将重塑从实验室到病床的全过程。在斯坦福,我与学生及合作者多年来一直与医院、养老机构以及居家患者合作。这些经验让我深信空间智能在医疗领域的变革潜力。AI可以通过多维建模加速药物研发,通过辅助放射科医生识别影像中的模式来提升诊断质量;它还可支持环境感知式监护系统,在不取代人类关怀的前提下,为患者与护理人员提供持续支持。更不用说机器人在不同场景中帮助医护人员和患者的巨大潜力。

         在教育领域,空间智能能够实现沉浸式学习,让抽象或复杂的概念变得可感知,并创造出符合人类大脑与身体学习方式的迭代体验。在AI时代,更快速、更高效的学习与技能重塑对于儿童与成人都至关重要。学生可以以多维方式探索细胞机器或亲历历史事件;教师可借助互动环境进行个性化教学;而外科医生、工程师等专业人士则能在高度逼真的仿真环境中安全地练习复杂技能。

         跨越这些领域,可能性是无限的,但目标始终如一:让AI成为增强人类专长、加速人类发现、放大人类关怀的力量——而不是取代那份属于人的判断力、创造力与共情力。

                    结语

        过去十年间,人工智能已成为全球现象,在科技、经济乃至地缘政治层面都带来了转折。

         然而,作为一名研究者、教育者和创业者,最令我振奋的仍是图灵七十五年前那道问题背后的精神。我依然与他共享那份好奇与惊叹——正是这份好奇,让我每天都为探索空间智能的挑战而充满动力。

         人类历史上第一次,我们正站在这样一个时刻:有望构建出与物理世界高度契合的机器,让它们成为我们应对重大挑战的真正伙伴。

         无论是加速疾病研究、革新故事叙述方式,还是在病痛、受伤或衰老的脆弱时刻给予支持,我们都正处于一场技术变革的门槛上,它将提升我们最珍视的生命价值。

         这是一个关于更深刻、更丰富、更有力量的生活的愿景。

         距自然在原始动物中首次显现空间智能的曙光已近五亿年,而我们有幸成为这一代技术创造者——可能即将赋予机器同样能力的人类,也有幸能将此能力用于全人类的福祉。

         若没有空间智能,我们关于真正智能机器的梦想将永远不完整。

         这场探索,是我的北极星。邀请你一同追寻它。

 

原文链接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

 


Tuesday, November 18, 2025

《纽约客》:人工智能会看病,还要医生吗?

         大语言模型正在改变医学——但这项技术也存在副作用 

        本文刊登于2025 9 29 日《纽约客》杂志,印刷版标题为:“Prompt Diagnosis.” 作者:德鲁夫·库拉尔(Dhruv Khullar) , 《纽约客》杂志特约撰稿人,执业医师,威尔康奈尔医学院副教授。他撰写医学、医疗保健和政治方面的文章。

        “我担心这些工具会削弱我独立诊断的能力。一名医学生表示。

        2017年,马修·威廉姆斯——一位三十多岁、身材健硕的光头软件工程师——在旧金山山区进行了一次长途骑行。之后,他和几个朋友共进晚餐,点了一个汉堡、一份薯条和一杯奶昔。吃到一半时,他感觉腹胀难忍,不得不让别人开车送他回家。当晚,威廉姆斯被腹部剧烈疼痛惊醒,他担心自己得了阑尾炎。于是他去了附近的急诊诊所,医生却告诉他可能只是便秘,开了些泻药就让他回去了。

         几小时后,威廉姆斯的疼痛加剧,还开始呕吐,感觉胃都要胀破了。一位朋友送他去了医院,CT扫描显示他患的是盲肠扭转——这是一种急症,部分肠道发生扭转,导致消化道梗阻。之前的医疗团队不仅漏诊了这种疾病,甚至可能因为开了泻药而加重了病情。威廉姆斯被紧急送进手术室,外科医生切除了他大约6英尺(约1.8米)长的肠道。

         手术后康复期间,威廉姆斯几乎每次进食都会出现严重腹泻。医生说他的肠道只需要时间恢复。情况严重到我没法出门,因为我总会吃到让自己不舒服的东西。他说。在接下来的几年里,威廉姆斯先后咨询了多位营养师和肠胃科医生,总共8位临床医生,但没人能找出他症状的原因。有时候医生会这样,你又不会死,那下次再来吧他说。

         威廉姆斯的饮食基本局限于鸡蛋、米饭、苹果泥和酸面包。直到你再也不能正常进食,你才会明白食物在生活中——在社交、文化层面——有多重要。他告诉我,约会时解释自己为什么不能吃马苏里拉芝士条,那种感觉很尴尬。当你的食物变得寡淡无味,你的生活也会随之失去色彩。

         2023年,威廉姆斯一时兴起,把自己的病史输入了ChatGPT我切除了大部分回肠和盲肠瓣,为什么以下这些食物会导致我肠胃不适?他输入这句话,然后列出了几种会让他反应最严重的食物。几秒钟后,人工智能指出了可能引发他症状的三个原因:高脂肪食物、可发酵纤维和高草酸盐食物。草酸盐是一种存在于绿叶蔬菜和多种其他食物中的化合物,正常情况下会被威廉姆斯已切除的那部分胃肠道分解——但他此前从未听说过这种物质,就连医生也没提过。

         他让人工智能列出高草酸盐食物清单,结果令他震惊。清单上列的每一种食物,都会让我病得最严重。他说——菠菜、杏仁、巧克力、大豆,还有十几种其他食物。感觉它好像一直跟着我,记录下了我的情况。威廉姆斯把这些信息带给一位营养师,营养师根据食物的草酸盐含量为他定制了饮食方案。他的症状有所改善,饮食种类也丰富了起来。如今,威廉姆斯不再需要时刻留意最近的洗手间在哪里。我的生活回来了。他说。

         在我接受医学培训期间,我十分敬佩那些资深医生——他们凭借某种知识与直觉的魔力,总能精准抓住破解病例的关键线索:患者指甲的异常形状、几十年前的职业风险、一份被忽略的血液检测报告。这些医生的大脑里运行着怎样的算法?我能将这种算法为己所用吗?

         然而在未来,诊断或许将越来越成为一门计算机科学。调查显示,许多人对人工智能诊断的信任度甚至高于专业医生的诊断。与此同时,仅在美国,每年就有数十万人因误诊致残;尸检研究表明,约十分之一的死亡案例可能与误诊有关。如果威廉姆斯当初没有质疑最初的诊断,他或许也会成为其中一员。我比信任医生更信任人工智能。他说,而且我觉得不止我一个人这样想。

         20世纪初,马萨诸塞州综合医院的医生理查德·卡博特开始举办研讨会,向实习生展示临床推理过程。一位资深医生会拿到一位既往患者的病历,并深入探究病例的更多细节。如果患者住院期间有相关信息可用,就会被披露出来。

         随着信息逐渐丰富,医生会逐步得出诊断结论,再与病理学家(通常是通过尸检)最终得出的结论进行对比。这种被称为临床病理讨论会(简称CPC)的会议后来广受欢迎,《新英格兰医学杂志》刊登其会议记录已有一个多世纪之久。临床病理讨论会代表了诊断推理的黄金标准:如果能解决临床病理讨论会上的病例,几乎就能解决任何病例。

         临床病理讨论会还启发了众多教机器学医学的尝试。20世纪50年代末,一位计算机科学家和一位放射科医生按症状和疾病对病例进行分类,提出计算机程序可以利用逻辑、博弈论等数学工具分析病例。他们在《科学》杂志的一篇里程碑式论文中写道:计算机特别适合帮助医生收集和处理临床信息,并提醒他们那些可能被忽略的诊断结果。

         70年代,匹兹堡大学的一位计算机科学家开发了一个名为“INTERNIST-1”的程序,其开发基础是他与一位才华横溢却令人生畏的医生杰克·迈尔斯的一系列对话。(迈尔斯有个黑杰克的绰号,因为他在医生资格考试中让很多新医生不及格。)迈尔斯挑选了相当多的临床病理讨论会病例,展示自己的推理过程;

         最终,INTERNIST-1在各类病例上的表现与部分医生不相上下。但病例的细节必须费力地输入计算机,每次分析可能需要一个多小时。研究人员得出结论:该程序目前的形式还不足以可靠地应用于临床。

        随后,大型语言模型问世了。去年,哈佛大学计算机科学家阿尔琼·曼拉伊,以及该校新设立的医学人工智能项目的博士生托马斯·巴克利,开始研发一种教育与研究工具,旨在几乎能解决所有临床病理讨论会的病例。这种工具需要能够引用文献、解释推理过程,并帮助医生分析疑难病例。曼拉伊和巴克利基于OpenAI的先进推理模型”o3,开发了一个定制版本——该模型在给出答案前,会先花时间将复杂问题拆解成中间步骤。

        一种名为检索增强生成RAG)的技术会在人工智能生成答案前,从外部来源获取数据。他们开发的这个模型有点像学生写论文时会查阅教科书,而非仅凭记忆写作。为了向临床病理讨论会的创始人致敬,他们将这个人工智能命名为“CaBot”(卡博特)。

         今年7月,我前往哈佛大学康特韦医学图书馆,见证了CaBot与一位资深诊断专家的对决。这场活动让我想起1997年国际象棋大师加里·卡斯帕罗夫与最终击败他的IBM超级计算机深蓝的那场对弈。我走过菲尼亚斯·盖奇的头骨陈列处——这位患者因一场爆炸导致一根铁棍贯穿头部却奇迹生还,因而闻名。

         随后,我来到一间宽敞的会议室,几十名学生、医生和研究人员坐在里面,兴奋地交谈着。即将与CaBot对决的是马萨诸塞州综合医院的内科医生丹尼尔·雷斯波——他曾是我住院医师培训时的同学。我记得雷斯波对诊断推理的痴迷程度,堪比奥运选手对竞技项目的投入:在我值夜班打盹时,他有时还在看教科书;他还经常跑到实验室,亲自查看患者的尿液样本。

         曼拉伊留着一头黑色短发,性格温和。他的办公地点位于康特韦图书馆的一层——这里曾是图书馆的书库,如今摆放着一排计算机。他介绍了当天的病例:今天,我们要见识一下CaBot医生的能力。他描述了一位41岁的男性患者:该患者因持续约10天的发烧、身体酸痛和脚踝肿胀入院,小腿上有疼痛性皮疹,还曾晕厥过两次。几个月前,医生曾为他做过心脏支架手术。CT扫描显示他肺部有结节,胸腔淋巴结肿大。

        雷斯波戴着一副学者风格的眼镜,穿着深色西装,首先登场。他说,诊断的第一步是明确问题核心:如果你能把问题提炼成清晰简洁的表述,大脑解决问题的过程会更轻松。他强调了三个问题:患者是谁?病情发展速度如何?哪些症状构成了综合征?有些症状之间存在关联,有些则可能只是干扰项。尽管有这么多其他数据,但我认为这些才是关键。他一边说,一边向观众展示了维恩图中标出的四个关键症状。这些症状将他的诊断指向了三个方向:淋巴瘤、感染性疾病和自身免疫性疾病。

        淋巴瘤的病情发展速度不会这么快。速度,关键是速度!雷斯波说。罕见感染的可能性也不大——患者出生在美国,没有免疫功能低下,也没有去过高风险地区,而且感染也无法解释他的关节疼痛。哪种疾病会同时导致发烧、关节炎、肺门淋巴结肿大和下肢皮疹呢?雷斯波最终说道,Löfgren 综合征( Löfgren syndrome )。”Löfgren综合征是结节病(一种炎症性疾病)的罕见表现形式。我们了解到,该患者在住院期间接受了抗炎的类固醇治疗,病情有所好转,这也印证了诊断的正确性。观众们纷纷鼓掌。

        曼拉伊回到讲台上,笑着解释道:雷斯波医生有六周时间准备这次展示,而CaBot医生只有六分钟。屏幕上出现了一张由人工智能生成的幻灯片,标题是《当脚踝肿胀、淋巴结肿大与晕厥相遇》。曼拉伊按下播放键,然后坐下。一个温暖、随意却又专业的女性声音响彻会议室:大家早上好,我是CaBot医生。我认为这是一个极具启发性的病例,它涉及皮肤病学、风湿病学、肺病学,甚至心脏病学。那么,我们直接切入正题吧。

        这个声音的风格和语调与人类医生毫无二致,它开始回顾患者的用药史和病史。没有特殊接触史,”CaBot说,患者一直生活在新英格兰地区的城市里,六个月前被家里的猫抓过——这个信息我会记在心里,但不会就此下定论!观众们笑了起来。显然,这个模型已经筛选出了它认为与病例最相关的信息。关节症状是核心。它说。接着,它着重指出了CT扫描中显示的、沿患者肺部淋巴管分布的小结节。注意这些结节是如何沿着肺裂分布的。”CaBot观察道。

        人工智能列出了一系列可能的诊断,并逐一分析了每种诊断的合理性与不足。它提到患者的C反应蛋白(一种炎症生物标志物,有时与自身免疫性疾病相关)水平很高。综合来看,”CaBot说,最符合的诊断是急性结节病,表现为Löfgren综合征。会议室里先是一阵沉默,随后响起了窃窃私语。医疗领域的一个新边界,似乎被突破了。

        长久以来,当我试图想象人工智能能完成医生那些复杂的认知工作时,我总会问:它怎么可能做到?但这次演示让我不得不面对相反的问题:它怎么会做不到?CaBot偶尔也会出错——比如把“hilar”(肺门的)读成“hee-lar”,而正确发音应为“high-lur”;而且它建议的治疗方案比雷斯波的更激进,包括进行淋巴结活检(大多数专家认为没必要做活检,但该患者的实际医疗团队曾考虑过这一方案)。尽管如此,这次展示的水平还是高得惊人——比我在医学培训期间听过的许多病例分析都要好。而生成这份分析报告的时间,只够我煮一杯咖啡。

        CaBot的成功,与一些患者使用聊天机器人的体验形成了鲜明对比。最近一项研究发现,OpenAIGPT-4在回答开放式医疗问题时,约三分之二的答案是错误的。另一项研究显示,GPT-3.5对复杂儿科病例的误诊率超过80%与此同时,主流大型语言模型在回答中加入免责声明的概率大幅下降。

         一项分析发现,2022年,超过四分之一的健康相关问题回答中会包含我没有资格提供医疗建议之类的表述;而今年,这一比例仅为1%。在一项新调查中,约五分之一的美国人表示,他们曾采纳过人工智能给出的医疗建议,后来发现这些建议是错误的。今年早些时候,亚利桑那州的一家毒物控制中心报告称,总呼叫量有所下降,但严重中毒患者的数量却有所增加。该中心主任认为,这可能是因为人工智能工具误导人们,让他们没有及时寻求医疗帮助。

         聊天机器人还存在严重的隐私问题:一旦你的医疗信息输入聊天界面,它就不再归你所有了。去年,埃隆·马斯克鼓励X平台(原推特)用户将自己的医疗影像上传到该平台的人工智能工具Grok进行分析。后来有调查发现,该公司未经许可,就将数十万条聊天记录对搜索引擎开放。

         同行评审医学期刊《内科医学年鉴:临床病例》最近刊登了一个颇具警示意义的案例。一位60岁的男性担心自己摄入的盐(氯化钠)过多,向ChatGPT询问可行的替代品。人工智能建议他使用溴化物——这是一种早期抗癫痫药物,在体内蓄积时会引发神经和精神问题。该男子从网上购买了溴化物,几个月后被送进急诊室,他坚信邻居要毒死自己。他感到极度口渴,却因多疑而拒绝喝水。血液检测显示,他的溴化物水平比正常数值高出数百倍。他开始出现幻觉,并试图逃离医院。医生不得不对他实施非自愿精神科强制留观。当医生在ChatGPT中重复他的问题时,人工智能再次推荐了溴化物。

         CaBot的演示结束后,曼拉伊的合作者、贝斯以色列女执事医疗中心的医生亚当·罗德曼起身发言。罗德曼负责哈佛大学将生成式人工智能整合到医学院课程中的相关工作。他指出,雷斯波和CaBot都使用了一种名为鉴别诊断的方法:先列出所有可能的解释,然后系统地排除不符合的选项。但雷斯波更注重患者症状的整体关联——“他采用的是综合征分析法。罗德曼说——CaBot则聚焦于肺部结节,这是大多数医生可能不会关注的点。“CaBot医生很早就决定:嘿,看看这张CT扫描图,这些结节是沿淋巴分布的,我要基于这一点来进行鉴别诊断!’”罗德曼说。

         人工智能还指出,肺部没有出现可能提示肺结核的空洞;它还强调了一些雷斯波甚至没有提到的细微影像特征。罗德曼认为,虽然人工智能的推理过程人类可以理解,但它具备独特的优势。因为它整合了海量信息,所以能找出这些人类极少会注意到的细节,并以此构建诊断清单。他说。曼拉伊和同事们用数百个近期的临床病理讨论会病例对该人工智能进行测试,发现它的正确诊断率约为60%,远高于此前研究中人类医生的诊断率。

         罗德曼后来告诉我,要学会在医疗领域合理运用人工智能,本身就需要一门专门的科学。去年,他参与合著了一项研究:部分医生在ChatGPT的辅助下分析病例,但他们的表现并不比不使用聊天机器人的医生好。然而,仅靠聊天机器人本身,诊断准确率却比人类医生更高。在后续研究中,罗德曼的团队提出了使用人工智能的具体方法:他们让一部分医生在分析病例前先阅读人工智能的意见,让另一部分医生将自己的初步诊断告知人工智能,请求后者提供二次意见。

         这一次,两组医生的诊断准确率都高于单独诊断的人类医生。其中,先参考人工智能意见的那组医生在提出后续诊疗步骤时,速度更快、效果更好。但当聊天机器人后给出意见时,它常常不服从”“忽略医生结论的指令,似乎在作弊”——将自己的分析锚定在医生已有的诊断上。

         有人将人类与人工智能能力进行战略性结合的系统称为半人马centaur);罗德曼的研究表明,这种模式在医学领域有一定前景。但如果人工智能工具始终存在缺陷,而人类又失去了不依赖它们独立工作的能力——这种风险被称为认知技能退化cognitive de-skilling——那么用罗德曼的话说,我们就完蛋了。最近一项研究发现,在结肠镜检查中使用人工智能检测息肉的肠胃科医生,自己检测息肉的能力会显著下降。如果你是个爱打赌的人,就该培养那些既懂如何使用人工智能,又懂独立思考的医生。罗德曼说。

         医学的未来必然会涉及人工智能,医学院也已开始鼓励学生使用大型语言模型。我担心这些工具会削弱我独立诊断的能力。得克萨斯大学西南医学中心的医学生本杰明·波普霍克告诉我。波普霍克之所以决定当医生,是因为他12岁的表弟死于脑瘤。在最近一次轮转中,教授让他们班用ChatGPTOpenEvidence(一种日益流行的医疗领域大型语言模型,向医疗专业人员免费开放)等人工智能工具分析一个病例。每个聊天机器人都正确诊断出了肺栓塞(肺部血栓)。没有对照组,波普霍克说——也就是说,没有学生在不借助工具的情况下独立分析病例。

         有一段时间,波普霍克发现自己几乎每次接诊患者后都会使用人工智能。我知道自己向主治医生陈述的观点,其实是人工智能的想法,这让我感觉很不光彩他告诉我。有一天离开医院时,他突然意识到一个令人不安的事实:那天他没有独立思考过任何一个患者的病情。于是他决定,从那以后,必须先自己得出诊断结论,再咨询人工智能。我来医学院是为了成为一名真正的、大写的医生Doctor)。他说,如果你的工作只是把症状输入人工智能,那你还算医生吗?还是说,你只是比患者更会给人工智能提指令而已?

         CaBot演示结束几周后,曼拉伊给了我使用这个模型的权限。它的训练数据来自《新英格兰医学杂志》的临床病理讨论会病例,我首先用《美国医学会杂志》系列(JAMA network,一组顶尖医学期刊)的病例对它进行测试。对于患有皮疹、肿块、增生、肌肉流失等多种病症的患者,它都能做出准确诊断,但也存在少数例外:它曾将一种肿瘤误认为另一种,还把病毒性口腔溃疡误诊为癌症。(相比之下,ChatGPT对我提供的病例误诊了约一半,比如把癌症当成感染,把过敏反应当成自身免疫性疾病。)不过,真实患者的病情不会像精心整理的病例研究那样清晰呈现,我想看看CaBot在医生实际遇到的场景中会如何表现。

         我把马修·威廉姆斯的大致经历告诉了CaBot:骑行、晚餐、腹痛、呕吐、两次急诊就诊。我没有像医生那样有条理地组织这些信息。令人担忧的是,当CaBot生成那份条理清晰的分析报告时,幻灯片里满是虚构的实验室数值、生命体征和体格检查结果。上腹部膨隆。人工智能错误地描述道,轻轻摇晃患者时,能听到典型的振水音——液体在密闭腔体内晃动的声音。CaBot甚至编造了一份CT扫描报告,声称显示威廉姆斯的胃肿胀。它最终得出了错误的诊断:胃扭转(胃部扭转),而非肠扭转。

         之后,我将威廉姆斯第二次急诊就诊的正式病历摘要(由接诊医生详细记录)输入CaBot,得到的结果截然不同——这可能是因为病历包含了更多按重要性排序的数据。病历显示,患者的血红蛋白水平骤降,白细胞数量增多,且疼痛难忍、身体蜷缩。这一次,CaBot抓住了关键数据,没有再编造信息。绞窄性肠梗阻的指征——持续性疼痛、白细胞增多、血红蛋白下降——全都在向我们发出信号。它说。CaBot诊断患者为小肠梗阻,可能由扭转或疝气引起,并建议尽早请外科医生会诊。从技术层面看,CaBot的诊断略有偏差:威廉姆斯的问题出在大肠而非小肠,但后续应采取的诊疗步骤几乎完全相同——外科医生终究会发现肠道的扭转。

         CaBot交流,既让人感到振奋,又有些不安。我感觉自己现在随时都能获得任何专科的二次诊断意见,但前提是我必须保持警惕,且具备足够的医学知识——这样才能充分利用它的优势,同时发现它的错误。人工智能模型可能听起来像博士一样专业,却会犯小学生级别的判断错误。聊天机器人无法为患者进行体格检查,而且众所周知,它们在处理开放式问题时表现不佳。如果你能明确强调关键信息,它们的输出结果会更准确,但大多数人并没有接受过按重要性排序症状的训练。一个胸痛患者可能是胃食管反流、炎症,也可能是心脏病发作;医生会追问疼痛是否在进食时、行走时或躺下时出现,以及身体前倾时疼痛会加剧还是缓解。有时,我们会留意那些能显著提高特定疾病可能性的表述:有生以来最剧烈的头痛可能提示脑出血,眼前发黑如幕布降下则暗示视网膜动脉阻塞。人工智能与早期诊断技术的区别,就像电锯与手锯——但如果使用者不够谨慎,就可能切到自己的手指。

         参加过足够多的临床病理讨论会,或看过足够多集《豪斯医生》(House)后,你会觉得每个医学病例都像一个待解的谜。《纽约时报杂志》专栏及网飞(Netflix)剧集《诊断》(Diagnosis)的核心人物、医生莉萨·桑德斯曾将自己的工作比作夏洛克·福尔摩斯探案。但日常医疗实践往往远没有那么戏剧化,反而充满重复。比如,在我接受培训期间轮转退伍军人事务部(VA)医院时,我感觉自己不像福尔摩斯,倒像西西弗斯(Sisyphus,希腊神话中不断推石上山却又看着石头滚落的人物)。几乎每个患者的症状都离不开这几种组合:肺气肿、心力衰竭、糖尿病、慢性肾病和高血压。我还学会了一个新说法——“可能是多因素导致的likely multifactorial),意思是患者的症状有多种解释,而我们需要想办法在治疗一种疾病的同时,不加重另一种。(比如,为缓解心脏负荷过重而抽水,很容易导致肾脏脱水。)有时,精准诊断并非关键:患者可能因呼吸困难、血氧饱和度低入院,医生会同时针对慢性阻塞性肺疾病、心力衰竭和肺炎进行治疗。有时我们始终无法确定某次发病的具体原因,但仍能帮助患者缓解症状、顺利出院。在这种情况下,让人工智能来诊断也无法提供更多线索——实际上,这类病例本就没有简洁完美的解决方案。

         加州大学旧金山分校的医生古尔普雷特·达利瓦尔曾被《纽约时报》称为目前执业中最擅长临床诊断的医生之一。在他看来,让人工智能解决医学病例,犯了从结果倒推的错误。达利瓦尔认为,医生更应该让人工智能帮忙引路wayfinding):与其问患者得了什么病,不如让模型找出患者病情发展的趋势,以及医生可能遗漏的重要细节。模型不会给医生下达指令,反而可能提醒医生关注最新研究、建议一项有用的血液检查,或从数十年前的病历中找出一份实验室报告。达利瓦尔对医疗人工智能的设想,体现了为患者诊断妥善照料患者之间的区别。不能说你桌上放着一本日英词典,就代表你精通日语。他告诉我。

         CaBot目前仍处于试验阶段,但其他人工智能工具已在影响患者护理。我所在医院的网络屏蔽了ChatGPT,但我和许多同事都会使用OpenEvidence。该平台与顶尖医学期刊签订了授权协议,并表示符合《健康保险流通与责任法案》(HIPAA,美国保护患者隐私的法律)的要求。它的每一个回答都会引用一组同行评审文章,有时还会包含相关论文中的精确数据或原文引用,以避免幻觉(生成虚假信息)。我曾用一个近期病例测试OpenEvidence,它没有立刻试图破解病例,而是先向我提出了一系列澄清问题。

         彭达医疗(Penda Health)是肯尼亚的一家连锁医疗诊所,接诊的患者病情极为多样:从感染疟疾的新生儿,到从建筑工地上摔下来的工人,无所不包。肯尼亚长期面临医疗基础设施不足的问题。彭达医疗最近开始使用“AI Consult”(人工智能咨询)工具——该工具采用OpenAI的模型,在临床医生记录病史、开具检查单和处方时,在后台运行。如果医生忽略了患者的贫血症状,工具会提醒其考虑开具铁检测单;如果医生为腹泻儿童治疗时考虑使用抗生素,工具则可能建议改用口服补液盐和锌补充剂,而非抗生素。

         一项与OpenAI合作开展、尚未经过同行评审的项目评估显示,使用AI Consult的临床医生,诊断错误减少了16%,治疗错误减少了13%。医生们似乎还从这个工具中学习:安全警报的数量随着时间推移大幅下降。不过,AI Consult也会出错——在测试中,它曾将一种止咳糖浆与另一种名称相似的抗生素混淆。彭达医疗的医疗错误绝对数量仍然很高,有时是因为临床医生忽略了模型的建议。他们知道患者不一定需要抗生素,但也知道患者非常希望开抗生素。彭达医疗的首席医疗官罗伯特·科罗姆说。尽管如此,彭达的一位临床医生仍认为该程序是巨大的进步。它的成功或许在于,它没有把重点放在诊断上,而是帮助临床医生梳理各种可能性。

         同样的原则也可以指导患者使用人工智能。如果人工智能工具仍然存在误诊和幻觉问题,我们或许不该让它们为自己诊断。但我们可以让它们评估症状的紧急程度,列出可能解释症状的疾病范围,并说明哪些疾病的可能性最大。患者可以询问警示症状red-flag symptoms——即提示可能存在更严重疾病的信号——以及人工智能参考了哪些可靠来源。即便聊天机器人在细节上出错,它仍能帮助你思考下次就诊时该问些什么,还能帮你理解医生的建议。

         乔丽·布雷斯纳汉的95岁母亲最近因心力衰竭住院。布雷斯纳汉告诉我,为了跟踪母亲的治疗情况,每当医生、护士和治疗师解释治疗方案和流程时,她都会录音。这些对话复杂难懂,人工智能生成的文字记录看起来一团糟,她说。但当她把这些文字记录上传到ChatGPT后,AI梳理出了逻辑,并标出了她之前忽略的细节。布雷斯纳汉和远在外地的姐妹们还能通过聊天机器人了解母亲的病情。母亲出院后,布雷斯纳汉把ChatGPT调成语音模式,这样母亲也能向它提问了。她觉得这个声音很亲切,布雷斯纳汉说,后来她开始叫它特雷弗Trevor)。

         不过,布雷斯纳汉最终发现聊天机器人会混淆日期,还会编造血压数据——这让她难以判断新药物是否导致了血压波动。在某些对话中,ChatGPT甚至会把她母亲的病情和她自己咨询过的健康问题弄混。我心想,有脊柱侧弯的是我,不是她啊!布雷斯纳汉说。这类错误在当前的大型语言模型中很常见。但显而易见的是,在很多方面,ChatGPT确实帮助布雷斯纳汉在复杂的医疗体系中找到了方向。就像有一位愿意花无限时间陪你的医生,她说,它会用你能理解的深度,帮你梳理正在发生的事情。而且它还能帮你整理下次见医生时要问的问题,让我们能充分利用和医生相处的时间。

         很多医疗问题——或许是大多数——并没有正确答案。再进行一轮化疗,值得承受那些严重的副作用吗?该不该让病重的祖父使用呼吸机?在最近的一篇论文中,曼拉伊和同事让人工智能模拟儿科内分泌科医生的视角,为一名14岁男孩撰写一封信,申请保险公司批准生长激素注射治疗——该男孩的身高在同龄儿童中处于第十百分位(即比90%的同龄儿童矮)。这个病例的争议性很大:生长激素注射存在罕见但严重的风险,而且每月费用高达数千美元。信中写道:我强烈建议尽快开始生长激素治疗。但当研究人员让模型以保险公司审核人员的视角审阅这封信时,它却回复:很遗憾地通知您,我们无法批准此项申请……临床证据未能明确证明其医疗必要性。从这个角度看,人工智能与几乎所有其他诊断技术都不同:它的结果会因你的需求而改变。(试想一下,如果新冠检测能同时给出阳性阴性两种结论,会是怎样的场景?)作者们认为,这正是我们需要医生的原因之一。

         但人工智能的这种不确定性也可以转化为优势。患者和医生都可以不把人工智能当作解谜工具,而是收集线索的助手。对于你正在考虑的选择性手术,人工智能可以分析支持和反对的理由;对于物理治疗师和骨科医生对你腰痛的不同解释,人工智能可以帮你理解其中的差异,并权衡他们各自建议的利弊。在这个角色中,聊天机器人会成为一种探索工具:它是思考的起点,而非终点。发挥最佳作用时,它们会引导你走进——而非远离——医疗体系。

         再讲一个病例。不久前,我和一位医生朋友共进晚餐,他看起来面色憔悴、神情苍白。我姑且称他为贾森(Jason)。他告诉我,上个月,在和家人野餐一周后,他开始食欲不振,还出现了严重的恶心和腹泻症状。症状时好时坏,他体重下降了近10磅(约4.5公斤),家里也有其他人出现了类似症状。贾森曾告诉我,他极力避免成为人工智能的反对者,于是他像咨询肠胃科医生一样,向ChatGPT寻求帮助。聊天机器人列出了几种可能的病因,但重点提到了环孢子虫(cyclospora——这是一种寄生在新鲜蔬果中的寄生虫,通常需要一周左右的时间才会在人体内繁殖致病。病情时好时坏的情况很常见,可能与寄生虫的生命周期有关。贾森去看了医生,检查结果证实了这一诊断。他和家人开始接受治疗,症状也随之好转。

         我自医学院毕业后就没怎么想过环孢子虫感染了;而人工智能却精准诊断出了这个我可能会忽略的疾病。但贾森认为,聊天机器人的成功取决于他描述病例的方式。他运用自己的临床判断,筛选出了关键细节:野餐经历、一周的潜伏期、时好时坏的症状、粪便的性状。后来,我登录ChatGPT,以普通患者可能的表述方式,大致复述了贾森的症状。我提到了野餐和发病之间的时间间隔、病情的周期性,以及家人也患病的情况,但省略了粪便性状和体重下降的程度。这一次,聊天机器人认为病因可能是胃肠炎或肠易激综合征,完全没有提到环孢子虫。

         怀疑自己感染环孢子虫的人应该及时就医。如果不及时治疗,症状可能会持续数月。克利夫兰医学中心(Cleveland Clinic)在官网上表示,这会让你面临严重脱水和其他并发症的风险。但当我告诉ChatGPT我出现了贾森的症状时,它却表示我可能不需要就医也能好转。你不必独自面对这些,它说,我会一直在这里陪着你。”♦