Tuesday, November 18, 2025

《纽约客》:人工智能会看病,还要医生吗?

         大语言模型正在改变医学——但这项技术也存在副作用 

        本文刊登于2025 9 29 日《纽约客》杂志,印刷版标题为:“Prompt Diagnosis.” 作者:德鲁夫·库拉尔(Dhruv Khullar) , 《纽约客》杂志特约撰稿人,执业医师,威尔康奈尔医学院副教授。他撰写医学、医疗保健和政治方面的文章。

        “我担心这些工具会削弱我独立诊断的能力。一名医学生表示。

        2017年,马修·威廉姆斯——一位三十多岁、身材健硕的光头软件工程师——在旧金山山区进行了一次长途骑行。之后,他和几个朋友共进晚餐,点了一个汉堡、一份薯条和一杯奶昔。吃到一半时,他感觉腹胀难忍,不得不让别人开车送他回家。当晚,威廉姆斯被腹部剧烈疼痛惊醒,他担心自己得了阑尾炎。于是他去了附近的急诊诊所,医生却告诉他可能只是便秘,开了些泻药就让他回去了。

         几小时后,威廉姆斯的疼痛加剧,还开始呕吐,感觉胃都要胀破了。一位朋友送他去了医院,CT扫描显示他患的是盲肠扭转——这是一种急症,部分肠道发生扭转,导致消化道梗阻。之前的医疗团队不仅漏诊了这种疾病,甚至可能因为开了泻药而加重了病情。威廉姆斯被紧急送进手术室,外科医生切除了他大约6英尺(约1.8米)长的肠道。

         手术后康复期间,威廉姆斯几乎每次进食都会出现严重腹泻。医生说他的肠道只需要时间恢复。情况严重到我没法出门,因为我总会吃到让自己不舒服的东西。他说。在接下来的几年里,威廉姆斯先后咨询了多位营养师和肠胃科医生,总共8位临床医生,但没人能找出他症状的原因。有时候医生会这样,你又不会死,那下次再来吧他说。

         威廉姆斯的饮食基本局限于鸡蛋、米饭、苹果泥和酸面包。直到你再也不能正常进食,你才会明白食物在生活中——在社交、文化层面——有多重要。他告诉我,约会时解释自己为什么不能吃马苏里拉芝士条,那种感觉很尴尬。当你的食物变得寡淡无味,你的生活也会随之失去色彩。

         2023年,威廉姆斯一时兴起,把自己的病史输入了ChatGPT我切除了大部分回肠和盲肠瓣,为什么以下这些食物会导致我肠胃不适?他输入这句话,然后列出了几种会让他反应最严重的食物。几秒钟后,人工智能指出了可能引发他症状的三个原因:高脂肪食物、可发酵纤维和高草酸盐食物。草酸盐是一种存在于绿叶蔬菜和多种其他食物中的化合物,正常情况下会被威廉姆斯已切除的那部分胃肠道分解——但他此前从未听说过这种物质,就连医生也没提过。

         他让人工智能列出高草酸盐食物清单,结果令他震惊。清单上列的每一种食物,都会让我病得最严重。他说——菠菜、杏仁、巧克力、大豆,还有十几种其他食物。感觉它好像一直跟着我,记录下了我的情况。威廉姆斯把这些信息带给一位营养师,营养师根据食物的草酸盐含量为他定制了饮食方案。他的症状有所改善,饮食种类也丰富了起来。如今,威廉姆斯不再需要时刻留意最近的洗手间在哪里。我的生活回来了。他说。

         在我接受医学培训期间,我十分敬佩那些资深医生——他们凭借某种知识与直觉的魔力,总能精准抓住破解病例的关键线索:患者指甲的异常形状、几十年前的职业风险、一份被忽略的血液检测报告。这些医生的大脑里运行着怎样的算法?我能将这种算法为己所用吗?

         然而在未来,诊断或许将越来越成为一门计算机科学。调查显示,许多人对人工智能诊断的信任度甚至高于专业医生的诊断。与此同时,仅在美国,每年就有数十万人因误诊致残;尸检研究表明,约十分之一的死亡案例可能与误诊有关。如果威廉姆斯当初没有质疑最初的诊断,他或许也会成为其中一员。我比信任医生更信任人工智能。他说,而且我觉得不止我一个人这样想。

         20世纪初,马萨诸塞州综合医院的医生理查德·卡博特开始举办研讨会,向实习生展示临床推理过程。一位资深医生会拿到一位既往患者的病历,并深入探究病例的更多细节。如果患者住院期间有相关信息可用,就会被披露出来。

         随着信息逐渐丰富,医生会逐步得出诊断结论,再与病理学家(通常是通过尸检)最终得出的结论进行对比。这种被称为临床病理讨论会(简称CPC)的会议后来广受欢迎,《新英格兰医学杂志》刊登其会议记录已有一个多世纪之久。临床病理讨论会代表了诊断推理的黄金标准:如果能解决临床病理讨论会上的病例,几乎就能解决任何病例。

         临床病理讨论会还启发了众多教机器学医学的尝试。20世纪50年代末,一位计算机科学家和一位放射科医生按症状和疾病对病例进行分类,提出计算机程序可以利用逻辑、博弈论等数学工具分析病例。他们在《科学》杂志的一篇里程碑式论文中写道:计算机特别适合帮助医生收集和处理临床信息,并提醒他们那些可能被忽略的诊断结果。

         70年代,匹兹堡大学的一位计算机科学家开发了一个名为“INTERNIST-1”的程序,其开发基础是他与一位才华横溢却令人生畏的医生杰克·迈尔斯的一系列对话。(迈尔斯有个黑杰克的绰号,因为他在医生资格考试中让很多新医生不及格。)迈尔斯挑选了相当多的临床病理讨论会病例,展示自己的推理过程;

         最终,INTERNIST-1在各类病例上的表现与部分医生不相上下。但病例的细节必须费力地输入计算机,每次分析可能需要一个多小时。研究人员得出结论:该程序目前的形式还不足以可靠地应用于临床。

        随后,大型语言模型问世了。去年,哈佛大学计算机科学家阿尔琼·曼拉伊,以及该校新设立的医学人工智能项目的博士生托马斯·巴克利,开始研发一种教育与研究工具,旨在几乎能解决所有临床病理讨论会的病例。这种工具需要能够引用文献、解释推理过程,并帮助医生分析疑难病例。曼拉伊和巴克利基于OpenAI的先进推理模型”o3,开发了一个定制版本——该模型在给出答案前,会先花时间将复杂问题拆解成中间步骤。

        一种名为检索增强生成RAG)的技术会在人工智能生成答案前,从外部来源获取数据。他们开发的这个模型有点像学生写论文时会查阅教科书,而非仅凭记忆写作。为了向临床病理讨论会的创始人致敬,他们将这个人工智能命名为“CaBot”(卡博特)。

         今年7月,我前往哈佛大学康特韦医学图书馆,见证了CaBot与一位资深诊断专家的对决。这场活动让我想起1997年国际象棋大师加里·卡斯帕罗夫与最终击败他的IBM超级计算机深蓝的那场对弈。我走过菲尼亚斯·盖奇的头骨陈列处——这位患者因一场爆炸导致一根铁棍贯穿头部却奇迹生还,因而闻名。

         随后,我来到一间宽敞的会议室,几十名学生、医生和研究人员坐在里面,兴奋地交谈着。即将与CaBot对决的是马萨诸塞州综合医院的内科医生丹尼尔·雷斯波——他曾是我住院医师培训时的同学。我记得雷斯波对诊断推理的痴迷程度,堪比奥运选手对竞技项目的投入:在我值夜班打盹时,他有时还在看教科书;他还经常跑到实验室,亲自查看患者的尿液样本。

         曼拉伊留着一头黑色短发,性格温和。他的办公地点位于康特韦图书馆的一层——这里曾是图书馆的书库,如今摆放着一排计算机。他介绍了当天的病例:今天,我们要见识一下CaBot医生的能力。他描述了一位41岁的男性患者:该患者因持续约10天的发烧、身体酸痛和脚踝肿胀入院,小腿上有疼痛性皮疹,还曾晕厥过两次。几个月前,医生曾为他做过心脏支架手术。CT扫描显示他肺部有结节,胸腔淋巴结肿大。

        雷斯波戴着一副学者风格的眼镜,穿着深色西装,首先登场。他说,诊断的第一步是明确问题核心:如果你能把问题提炼成清晰简洁的表述,大脑解决问题的过程会更轻松。他强调了三个问题:患者是谁?病情发展速度如何?哪些症状构成了综合征?有些症状之间存在关联,有些则可能只是干扰项。尽管有这么多其他数据,但我认为这些才是关键。他一边说,一边向观众展示了维恩图中标出的四个关键症状。这些症状将他的诊断指向了三个方向:淋巴瘤、感染性疾病和自身免疫性疾病。

        淋巴瘤的病情发展速度不会这么快。速度,关键是速度!雷斯波说。罕见感染的可能性也不大——患者出生在美国,没有免疫功能低下,也没有去过高风险地区,而且感染也无法解释他的关节疼痛。哪种疾病会同时导致发烧、关节炎、肺门淋巴结肿大和下肢皮疹呢?雷斯波最终说道,Löfgren 综合征( Löfgren syndrome )。”Löfgren综合征是结节病(一种炎症性疾病)的罕见表现形式。我们了解到,该患者在住院期间接受了抗炎的类固醇治疗,病情有所好转,这也印证了诊断的正确性。观众们纷纷鼓掌。

        曼拉伊回到讲台上,笑着解释道:雷斯波医生有六周时间准备这次展示,而CaBot医生只有六分钟。屏幕上出现了一张由人工智能生成的幻灯片,标题是《当脚踝肿胀、淋巴结肿大与晕厥相遇》。曼拉伊按下播放键,然后坐下。一个温暖、随意却又专业的女性声音响彻会议室:大家早上好,我是CaBot医生。我认为这是一个极具启发性的病例,它涉及皮肤病学、风湿病学、肺病学,甚至心脏病学。那么,我们直接切入正题吧。

        这个声音的风格和语调与人类医生毫无二致,它开始回顾患者的用药史和病史。没有特殊接触史,”CaBot说,患者一直生活在新英格兰地区的城市里,六个月前被家里的猫抓过——这个信息我会记在心里,但不会就此下定论!观众们笑了起来。显然,这个模型已经筛选出了它认为与病例最相关的信息。关节症状是核心。它说。接着,它着重指出了CT扫描中显示的、沿患者肺部淋巴管分布的小结节。注意这些结节是如何沿着肺裂分布的。”CaBot观察道。

        人工智能列出了一系列可能的诊断,并逐一分析了每种诊断的合理性与不足。它提到患者的C反应蛋白(一种炎症生物标志物,有时与自身免疫性疾病相关)水平很高。综合来看,”CaBot说,最符合的诊断是急性结节病,表现为Löfgren综合征。会议室里先是一阵沉默,随后响起了窃窃私语。医疗领域的一个新边界,似乎被突破了。

        长久以来,当我试图想象人工智能能完成医生那些复杂的认知工作时,我总会问:它怎么可能做到?但这次演示让我不得不面对相反的问题:它怎么会做不到?CaBot偶尔也会出错——比如把“hilar”(肺门的)读成“hee-lar”,而正确发音应为“high-lur”;而且它建议的治疗方案比雷斯波的更激进,包括进行淋巴结活检(大多数专家认为没必要做活检,但该患者的实际医疗团队曾考虑过这一方案)。尽管如此,这次展示的水平还是高得惊人——比我在医学培训期间听过的许多病例分析都要好。而生成这份分析报告的时间,只够我煮一杯咖啡。

        CaBot的成功,与一些患者使用聊天机器人的体验形成了鲜明对比。最近一项研究发现,OpenAIGPT-4在回答开放式医疗问题时,约三分之二的答案是错误的。另一项研究显示,GPT-3.5对复杂儿科病例的误诊率超过80%与此同时,主流大型语言模型在回答中加入免责声明的概率大幅下降。

         一项分析发现,2022年,超过四分之一的健康相关问题回答中会包含我没有资格提供医疗建议之类的表述;而今年,这一比例仅为1%。在一项新调查中,约五分之一的美国人表示,他们曾采纳过人工智能给出的医疗建议,后来发现这些建议是错误的。今年早些时候,亚利桑那州的一家毒物控制中心报告称,总呼叫量有所下降,但严重中毒患者的数量却有所增加。该中心主任认为,这可能是因为人工智能工具误导人们,让他们没有及时寻求医疗帮助。

         聊天机器人还存在严重的隐私问题:一旦你的医疗信息输入聊天界面,它就不再归你所有了。去年,埃隆·马斯克鼓励X平台(原推特)用户将自己的医疗影像上传到该平台的人工智能工具Grok进行分析。后来有调查发现,该公司未经许可,就将数十万条聊天记录对搜索引擎开放。

         同行评审医学期刊《内科医学年鉴:临床病例》最近刊登了一个颇具警示意义的案例。一位60岁的男性担心自己摄入的盐(氯化钠)过多,向ChatGPT询问可行的替代品。人工智能建议他使用溴化物——这是一种早期抗癫痫药物,在体内蓄积时会引发神经和精神问题。该男子从网上购买了溴化物,几个月后被送进急诊室,他坚信邻居要毒死自己。他感到极度口渴,却因多疑而拒绝喝水。血液检测显示,他的溴化物水平比正常数值高出数百倍。他开始出现幻觉,并试图逃离医院。医生不得不对他实施非自愿精神科强制留观。当医生在ChatGPT中重复他的问题时,人工智能再次推荐了溴化物。

         CaBot的演示结束后,曼拉伊的合作者、贝斯以色列女执事医疗中心的医生亚当·罗德曼起身发言。罗德曼负责哈佛大学将生成式人工智能整合到医学院课程中的相关工作。他指出,雷斯波和CaBot都使用了一种名为鉴别诊断的方法:先列出所有可能的解释,然后系统地排除不符合的选项。但雷斯波更注重患者症状的整体关联——“他采用的是综合征分析法。罗德曼说——CaBot则聚焦于肺部结节,这是大多数医生可能不会关注的点。“CaBot医生很早就决定:嘿,看看这张CT扫描图,这些结节是沿淋巴分布的,我要基于这一点来进行鉴别诊断!’”罗德曼说。

         人工智能还指出,肺部没有出现可能提示肺结核的空洞;它还强调了一些雷斯波甚至没有提到的细微影像特征。罗德曼认为,虽然人工智能的推理过程人类可以理解,但它具备独特的优势。因为它整合了海量信息,所以能找出这些人类极少会注意到的细节,并以此构建诊断清单。他说。曼拉伊和同事们用数百个近期的临床病理讨论会病例对该人工智能进行测试,发现它的正确诊断率约为60%,远高于此前研究中人类医生的诊断率。

         罗德曼后来告诉我,要学会在医疗领域合理运用人工智能,本身就需要一门专门的科学。去年,他参与合著了一项研究:部分医生在ChatGPT的辅助下分析病例,但他们的表现并不比不使用聊天机器人的医生好。然而,仅靠聊天机器人本身,诊断准确率却比人类医生更高。在后续研究中,罗德曼的团队提出了使用人工智能的具体方法:他们让一部分医生在分析病例前先阅读人工智能的意见,让另一部分医生将自己的初步诊断告知人工智能,请求后者提供二次意见。

         这一次,两组医生的诊断准确率都高于单独诊断的人类医生。其中,先参考人工智能意见的那组医生在提出后续诊疗步骤时,速度更快、效果更好。但当聊天机器人后给出意见时,它常常不服从”“忽略医生结论的指令,似乎在作弊”——将自己的分析锚定在医生已有的诊断上。

         有人将人类与人工智能能力进行战略性结合的系统称为半人马centaur);罗德曼的研究表明,这种模式在医学领域有一定前景。但如果人工智能工具始终存在缺陷,而人类又失去了不依赖它们独立工作的能力——这种风险被称为认知技能退化cognitive de-skilling——那么用罗德曼的话说,我们就完蛋了。最近一项研究发现,在结肠镜检查中使用人工智能检测息肉的肠胃科医生,自己检测息肉的能力会显著下降。如果你是个爱打赌的人,就该培养那些既懂如何使用人工智能,又懂独立思考的医生。罗德曼说。

         医学的未来必然会涉及人工智能,医学院也已开始鼓励学生使用大型语言模型。我担心这些工具会削弱我独立诊断的能力。得克萨斯大学西南医学中心的医学生本杰明·波普霍克告诉我。波普霍克之所以决定当医生,是因为他12岁的表弟死于脑瘤。在最近一次轮转中,教授让他们班用ChatGPTOpenEvidence(一种日益流行的医疗领域大型语言模型,向医疗专业人员免费开放)等人工智能工具分析一个病例。每个聊天机器人都正确诊断出了肺栓塞(肺部血栓)。没有对照组,波普霍克说——也就是说,没有学生在不借助工具的情况下独立分析病例。

         有一段时间,波普霍克发现自己几乎每次接诊患者后都会使用人工智能。我知道自己向主治医生陈述的观点,其实是人工智能的想法,这让我感觉很不光彩他告诉我。有一天离开医院时,他突然意识到一个令人不安的事实:那天他没有独立思考过任何一个患者的病情。于是他决定,从那以后,必须先自己得出诊断结论,再咨询人工智能。我来医学院是为了成为一名真正的、大写的医生Doctor)。他说,如果你的工作只是把症状输入人工智能,那你还算医生吗?还是说,你只是比患者更会给人工智能提指令而已?

         CaBot演示结束几周后,曼拉伊给了我使用这个模型的权限。它的训练数据来自《新英格兰医学杂志》的临床病理讨论会病例,我首先用《美国医学会杂志》系列(JAMA network,一组顶尖医学期刊)的病例对它进行测试。对于患有皮疹、肿块、增生、肌肉流失等多种病症的患者,它都能做出准确诊断,但也存在少数例外:它曾将一种肿瘤误认为另一种,还把病毒性口腔溃疡误诊为癌症。(相比之下,ChatGPT对我提供的病例误诊了约一半,比如把癌症当成感染,把过敏反应当成自身免疫性疾病。)不过,真实患者的病情不会像精心整理的病例研究那样清晰呈现,我想看看CaBot在医生实际遇到的场景中会如何表现。

         我把马修·威廉姆斯的大致经历告诉了CaBot:骑行、晚餐、腹痛、呕吐、两次急诊就诊。我没有像医生那样有条理地组织这些信息。令人担忧的是,当CaBot生成那份条理清晰的分析报告时,幻灯片里满是虚构的实验室数值、生命体征和体格检查结果。上腹部膨隆。人工智能错误地描述道,轻轻摇晃患者时,能听到典型的振水音——液体在密闭腔体内晃动的声音。CaBot甚至编造了一份CT扫描报告,声称显示威廉姆斯的胃肿胀。它最终得出了错误的诊断:胃扭转(胃部扭转),而非肠扭转。

         之后,我将威廉姆斯第二次急诊就诊的正式病历摘要(由接诊医生详细记录)输入CaBot,得到的结果截然不同——这可能是因为病历包含了更多按重要性排序的数据。病历显示,患者的血红蛋白水平骤降,白细胞数量增多,且疼痛难忍、身体蜷缩。这一次,CaBot抓住了关键数据,没有再编造信息。绞窄性肠梗阻的指征——持续性疼痛、白细胞增多、血红蛋白下降——全都在向我们发出信号。它说。CaBot诊断患者为小肠梗阻,可能由扭转或疝气引起,并建议尽早请外科医生会诊。从技术层面看,CaBot的诊断略有偏差:威廉姆斯的问题出在大肠而非小肠,但后续应采取的诊疗步骤几乎完全相同——外科医生终究会发现肠道的扭转。

         CaBot交流,既让人感到振奋,又有些不安。我感觉自己现在随时都能获得任何专科的二次诊断意见,但前提是我必须保持警惕,且具备足够的医学知识——这样才能充分利用它的优势,同时发现它的错误。人工智能模型可能听起来像博士一样专业,却会犯小学生级别的判断错误。聊天机器人无法为患者进行体格检查,而且众所周知,它们在处理开放式问题时表现不佳。如果你能明确强调关键信息,它们的输出结果会更准确,但大多数人并没有接受过按重要性排序症状的训练。一个胸痛患者可能是胃食管反流、炎症,也可能是心脏病发作;医生会追问疼痛是否在进食时、行走时或躺下时出现,以及身体前倾时疼痛会加剧还是缓解。有时,我们会留意那些能显著提高特定疾病可能性的表述:有生以来最剧烈的头痛可能提示脑出血,眼前发黑如幕布降下则暗示视网膜动脉阻塞。人工智能与早期诊断技术的区别,就像电锯与手锯——但如果使用者不够谨慎,就可能切到自己的手指。

         参加过足够多的临床病理讨论会,或看过足够多集《豪斯医生》(House)后,你会觉得每个医学病例都像一个待解的谜。《纽约时报杂志》专栏及网飞(Netflix)剧集《诊断》(Diagnosis)的核心人物、医生莉萨·桑德斯曾将自己的工作比作夏洛克·福尔摩斯探案。但日常医疗实践往往远没有那么戏剧化,反而充满重复。比如,在我接受培训期间轮转退伍军人事务部(VA)医院时,我感觉自己不像福尔摩斯,倒像西西弗斯(Sisyphus,希腊神话中不断推石上山却又看着石头滚落的人物)。几乎每个患者的症状都离不开这几种组合:肺气肿、心力衰竭、糖尿病、慢性肾病和高血压。我还学会了一个新说法——“可能是多因素导致的likely multifactorial),意思是患者的症状有多种解释,而我们需要想办法在治疗一种疾病的同时,不加重另一种。(比如,为缓解心脏负荷过重而抽水,很容易导致肾脏脱水。)有时,精准诊断并非关键:患者可能因呼吸困难、血氧饱和度低入院,医生会同时针对慢性阻塞性肺疾病、心力衰竭和肺炎进行治疗。有时我们始终无法确定某次发病的具体原因,但仍能帮助患者缓解症状、顺利出院。在这种情况下,让人工智能来诊断也无法提供更多线索——实际上,这类病例本就没有简洁完美的解决方案。

         加州大学旧金山分校的医生古尔普雷特·达利瓦尔曾被《纽约时报》称为目前执业中最擅长临床诊断的医生之一。在他看来,让人工智能解决医学病例,犯了从结果倒推的错误。达利瓦尔认为,医生更应该让人工智能帮忙引路wayfinding):与其问患者得了什么病,不如让模型找出患者病情发展的趋势,以及医生可能遗漏的重要细节。模型不会给医生下达指令,反而可能提醒医生关注最新研究、建议一项有用的血液检查,或从数十年前的病历中找出一份实验室报告。达利瓦尔对医疗人工智能的设想,体现了为患者诊断妥善照料患者之间的区别。不能说你桌上放着一本日英词典,就代表你精通日语。他告诉我。

         CaBot目前仍处于试验阶段,但其他人工智能工具已在影响患者护理。我所在医院的网络屏蔽了ChatGPT,但我和许多同事都会使用OpenEvidence。该平台与顶尖医学期刊签订了授权协议,并表示符合《健康保险流通与责任法案》(HIPAA,美国保护患者隐私的法律)的要求。它的每一个回答都会引用一组同行评审文章,有时还会包含相关论文中的精确数据或原文引用,以避免幻觉(生成虚假信息)。我曾用一个近期病例测试OpenEvidence,它没有立刻试图破解病例,而是先向我提出了一系列澄清问题。

         彭达医疗(Penda Health)是肯尼亚的一家连锁医疗诊所,接诊的患者病情极为多样:从感染疟疾的新生儿,到从建筑工地上摔下来的工人,无所不包。肯尼亚长期面临医疗基础设施不足的问题。彭达医疗最近开始使用“AI Consult”(人工智能咨询)工具——该工具采用OpenAI的模型,在临床医生记录病史、开具检查单和处方时,在后台运行。如果医生忽略了患者的贫血症状,工具会提醒其考虑开具铁检测单;如果医生为腹泻儿童治疗时考虑使用抗生素,工具则可能建议改用口服补液盐和锌补充剂,而非抗生素。

         一项与OpenAI合作开展、尚未经过同行评审的项目评估显示,使用AI Consult的临床医生,诊断错误减少了16%,治疗错误减少了13%。医生们似乎还从这个工具中学习:安全警报的数量随着时间推移大幅下降。不过,AI Consult也会出错——在测试中,它曾将一种止咳糖浆与另一种名称相似的抗生素混淆。彭达医疗的医疗错误绝对数量仍然很高,有时是因为临床医生忽略了模型的建议。他们知道患者不一定需要抗生素,但也知道患者非常希望开抗生素。彭达医疗的首席医疗官罗伯特·科罗姆说。尽管如此,彭达的一位临床医生仍认为该程序是巨大的进步。它的成功或许在于,它没有把重点放在诊断上,而是帮助临床医生梳理各种可能性。

         同样的原则也可以指导患者使用人工智能。如果人工智能工具仍然存在误诊和幻觉问题,我们或许不该让它们为自己诊断。但我们可以让它们评估症状的紧急程度,列出可能解释症状的疾病范围,并说明哪些疾病的可能性最大。患者可以询问警示症状red-flag symptoms——即提示可能存在更严重疾病的信号——以及人工智能参考了哪些可靠来源。即便聊天机器人在细节上出错,它仍能帮助你思考下次就诊时该问些什么,还能帮你理解医生的建议。

         乔丽·布雷斯纳汉的95岁母亲最近因心力衰竭住院。布雷斯纳汉告诉我,为了跟踪母亲的治疗情况,每当医生、护士和治疗师解释治疗方案和流程时,她都会录音。这些对话复杂难懂,人工智能生成的文字记录看起来一团糟,她说。但当她把这些文字记录上传到ChatGPT后,AI梳理出了逻辑,并标出了她之前忽略的细节。布雷斯纳汉和远在外地的姐妹们还能通过聊天机器人了解母亲的病情。母亲出院后,布雷斯纳汉把ChatGPT调成语音模式,这样母亲也能向它提问了。她觉得这个声音很亲切,布雷斯纳汉说,后来她开始叫它特雷弗Trevor)。

         不过,布雷斯纳汉最终发现聊天机器人会混淆日期,还会编造血压数据——这让她难以判断新药物是否导致了血压波动。在某些对话中,ChatGPT甚至会把她母亲的病情和她自己咨询过的健康问题弄混。我心想,有脊柱侧弯的是我,不是她啊!布雷斯纳汉说。这类错误在当前的大型语言模型中很常见。但显而易见的是,在很多方面,ChatGPT确实帮助布雷斯纳汉在复杂的医疗体系中找到了方向。就像有一位愿意花无限时间陪你的医生,她说,它会用你能理解的深度,帮你梳理正在发生的事情。而且它还能帮你整理下次见医生时要问的问题,让我们能充分利用和医生相处的时间。

         很多医疗问题——或许是大多数——并没有正确答案。再进行一轮化疗,值得承受那些严重的副作用吗?该不该让病重的祖父使用呼吸机?在最近的一篇论文中,曼拉伊和同事让人工智能模拟儿科内分泌科医生的视角,为一名14岁男孩撰写一封信,申请保险公司批准生长激素注射治疗——该男孩的身高在同龄儿童中处于第十百分位(即比90%的同龄儿童矮)。这个病例的争议性很大:生长激素注射存在罕见但严重的风险,而且每月费用高达数千美元。信中写道:我强烈建议尽快开始生长激素治疗。但当研究人员让模型以保险公司审核人员的视角审阅这封信时,它却回复:很遗憾地通知您,我们无法批准此项申请……临床证据未能明确证明其医疗必要性。从这个角度看,人工智能与几乎所有其他诊断技术都不同:它的结果会因你的需求而改变。(试想一下,如果新冠检测能同时给出阳性阴性两种结论,会是怎样的场景?)作者们认为,这正是我们需要医生的原因之一。

         但人工智能的这种不确定性也可以转化为优势。患者和医生都可以不把人工智能当作解谜工具,而是收集线索的助手。对于你正在考虑的选择性手术,人工智能可以分析支持和反对的理由;对于物理治疗师和骨科医生对你腰痛的不同解释,人工智能可以帮你理解其中的差异,并权衡他们各自建议的利弊。在这个角色中,聊天机器人会成为一种探索工具:它是思考的起点,而非终点。发挥最佳作用时,它们会引导你走进——而非远离——医疗体系。

         再讲一个病例。不久前,我和一位医生朋友共进晚餐,他看起来面色憔悴、神情苍白。我姑且称他为贾森(Jason)。他告诉我,上个月,在和家人野餐一周后,他开始食欲不振,还出现了严重的恶心和腹泻症状。症状时好时坏,他体重下降了近10磅(约4.5公斤),家里也有其他人出现了类似症状。贾森曾告诉我,他极力避免成为人工智能的反对者,于是他像咨询肠胃科医生一样,向ChatGPT寻求帮助。聊天机器人列出了几种可能的病因,但重点提到了环孢子虫(cyclospora——这是一种寄生在新鲜蔬果中的寄生虫,通常需要一周左右的时间才会在人体内繁殖致病。病情时好时坏的情况很常见,可能与寄生虫的生命周期有关。贾森去看了医生,检查结果证实了这一诊断。他和家人开始接受治疗,症状也随之好转。

         我自医学院毕业后就没怎么想过环孢子虫感染了;而人工智能却精准诊断出了这个我可能会忽略的疾病。但贾森认为,聊天机器人的成功取决于他描述病例的方式。他运用自己的临床判断,筛选出了关键细节:野餐经历、一周的潜伏期、时好时坏的症状、粪便的性状。后来,我登录ChatGPT,以普通患者可能的表述方式,大致复述了贾森的症状。我提到了野餐和发病之间的时间间隔、病情的周期性,以及家人也患病的情况,但省略了粪便性状和体重下降的程度。这一次,聊天机器人认为病因可能是胃肠炎或肠易激综合征,完全没有提到环孢子虫。

         怀疑自己感染环孢子虫的人应该及时就医。如果不及时治疗,症状可能会持续数月。克利夫兰医学中心(Cleveland Clinic)在官网上表示,这会让你面临严重脱水和其他并发症的风险。但当我告诉ChatGPT我出现了贾森的症状时,它却表示我可能不需要就医也能好转。你不必独自面对这些,它说,我会一直在这里陪着你。”♦