当人工智能进军医疗领域：你是否敢把自己交给机器人医生？|界面新闻

按：在百度搜索引擎中输入关键词“大数据医疗”，弹出的第一条结果就是IBM公司的认知型医疗项目，这个项目基于一款名为“沃森”的问答计算机系统（question answering computer system）。“沃森”的名头可能不如“AlphaGo”响亮，但它成名却比“AlphaGo”早，早在2011年，它就在美国著名的智力竞赛节目《危险边缘》（Jeopardy！）上以压倒性优势战胜了人类总冠军肯·詹宁斯。赛后，詹宁斯表示：“智力竞赛节目可能是因思维型计算机的出现而变得多余的第一个领域，并且我确定，它不会是最后一个。”

詹宁斯所言不虚，“沃森”因《危险边缘》一举成名后，IMB立刻宣布，它的下一个目标是进军医疗行业。2013年，“沃森”先是在纽约斯隆·凯特灵纪念癌症中心被应用于肺癌治疗，后来又与美国著名的安德森癌症中心达成合作关系。然而据《福布斯》杂志报道，这项合作已于2017年停摆，经过了四年间数次研究重点的更迭，花掉了6200万美金的巨额经费之后，“机器人看病”的美好愿景还是无疾而终。

但在美国硅谷的科技大佬及其背后的风险投资人看来，“机器人看病”只是一个时间问题。随着计算机运算能力的不断增强、病历记录的逐步数字化，再加上科技创新呈现出越来越强的跨领域“交叉融合”的特点，人工智能在医疗领域的应用终将柳暗花明。甚至有人预测，到2025年，数据驱动的自动化医疗机构将会取代医生80%的诊断和治疗工作。

这一数字激怒了不少医生，却没有人敢理直气壮地否定它。毕竟在十年之前，人们对于自动驾驶技术也曾抱有类似的质疑态度，在人们的想象中，太多场景是机器无法处理的：当一个小孩子追着足球横穿马路，当一个发着短信的年轻人出人意料地忽然转向，当信号灯出现了故障，甚至是一个日常驾驶中平淡无奇的场景——在迎面而来的滚滚车流中左转弯——都足以让机器不知所措。然而，在十年后，数据告诉人们，机器不仅能够娴熟地应对这些复杂路况，并且它犯的错误比人类司机要少得多。

我们可以将驾驶汽车、回答问题甚至下围棋，与医学诊断和治疗相提并论吗？医生的工作到底特殊在哪里？这是今年一月出版的新书《数字医疗：信息化时代医疗改革的机遇与挑战》想要回答的问题之一。这本书的作者是美国加州大学旧金山分校医院院长罗伯特·瓦赫特，他是“医院医生”（hospitalist）概念的提出者，曾获得美国患者安全领域最高荣誉“约翰·艾森伯格奖”，并连续十年被《现代医疗》杂志评为“全美50位最具影响力的医生高管”。除此之外，他还是六本医疗领域畅销书的作者，他的个人网站也是最受美国人喜爱的医疗博客之一。然而这本书所呈现的，却不只是他的个人意见，而是他对数字医疗相关领域的100余位代表人物的采访，这些对话还原了美国近15年来的数字医疗发展史。

在这15年时间里，历经两届美国总统，借由300亿美元拨款和相关法律的出台，美国经历了医疗数字化的重要变革，但这一变革仅仅是为更大的颠覆性革命铺就了基础设施，即实现了整个医疗卫生服务体系的数字化，以及不同医疗信息系统之间的初步互联，这些基础设施的完善为人工智能参与诊断和治疗提供了可能性。

但即便最坚定的技术乐观主义者也无法否认，技术革命并不能从根本上解决医疗行业根深蒂固的矛盾和问题，甚至在某种程度上，这些矛盾在技术的催化之下显得更加严峻和急迫。医疗行业固有的公益性与盈利性、开放性与私密性、科学性与人文性、垄断与创新等矛盾，也淋漓尽致地体现在医疗数字化的整个过程之中，因此，这本书不仅是从专业角度对数字医疗可行性的探讨，更是对它可能带来的风险和伦理困境做出的一番人文层面的反思。经出版社授权，界面文化（ID：booksandfun）节选了《数字医疗》一书中关于人工智能参与医疗决策的部分章节，以飨读者。

《数字医疗：信息化时代医疗改革的机遇与挑战》（节选）

文 |[美]罗比特·瓦赫特译 | 郑杰

一、缓慢积累、迅速爆发

安德鲁 ·麦卡菲作为畅销书《第二次机器革命》（The Second Machine Age）的共同作者，他赞同科斯拉的观点，认为机器最终将会从医生手中接管包括诊断在内所有的一切。麦卡菲自称是一个“技术乐观主义者”，我们在麻省理工学院附近共进午餐时，他告诉我：“我不认为有什么能阻挡这一发展。”麦卡菲认为，随着机器计算能力的不断增长，互联网上大容量的数据触手可及，再加上创新所具有的“交叉融合特点”，所有这些组合起来意味着，类似“人工智能在医疗领域里的应用”这种曾经看来死路一条的问题将柳暗花明。他们引用海明威对一个人破产的描述来比喻数据壁垒倒塌的速度：缓慢积累，迅速爆发。

在与麦卡菲的交谈中，我感到一种莫名的想要捍卫人类和医生权利的责任感。我告诉麦卡菲，虽然我对无人驾驶汽车和IBM的超级计算机在国际象棋比赛和《危险边缘》节目中取得的胜利怀有敬畏之心，但一般人可能并不清楚医学的复杂性。一方面，不确定性在诊断中是经常出现的，因而回答“正确”通常是一个令人吃惊的概率问题。此外，许多疾病需要一段时间之后才能确诊。例如，病人可能说他头痛，但是并不严重。这时首选治疗措施是安抚病人、泰诺和时间。如果在接下来的两个星期里，患者头痛逐渐加重，尤其是还出现诸如乏力、恶心等新的症状，那么这时的诊断将会完全不同。

麦卡菲肯定不止一次曾听到“你不懂，我的工作和你想的不一样”这种观点，他会表示赞同，然后说：“你们描述这些情况的时候，我猜IBM肯定有一堆聪明的程序员已经记录了这些。在他们的脑袋里想的是‘面对这种情况，我该如何建模？’”

当我和维诺德 ·科斯拉（硅谷著名风险投资人）在门罗帕克（ Menlo Park）第二次见面的时候，我勇敢地尝试了另外一种方法。我说：“维诺德，医学中有一种检查叫作’目测’，这意味着我能够分辨出身体指标相似的两个病人。比如说，体温值、心率值、血细胞计数类似的两个人。我的经验使我能够判断‘这个人有问题，而另外一个人是健康的’。”我告诉他，一个经验丰富的医生通常都能做出正确的判断，因为在既往大量的训练、众多病人和成千上万的试验和错误中，医生们获得了某种第六感可帮助做出正确的判断。

但科斯拉并没有动摇。“问题在于’这些信息是无法定量的还是没有被定量’，”他回答，“此外，直觉在哪些情况下起作用，哪些情况下会失效呢。我认为，如果你进行更严谨的研究，就会发现‘目测’的作用比你想象中小得多。”

人类与机器的争论早已不再新鲜，这些争论的结果通常以“共存”而非“取代”而告终。在一些领域中，当计算机和人共同协作、充分发挥人机的互补优势之时才能得出最优的结果。在医疗领域，这些争论通常很有意思并且非常激烈，主要是因为变革的风险较高、人体机能具有复杂性，以及医学不仅需要诊断治疗的技术、药物，还需要考虑道德、伦理问题。而在人工智能的其他应用领域，例如计算机自动选择酒店房间、自动选股或者让无人驾驶汽车选择左转弯的时机，就不会存在后面这些问题了。

为了使人工智能在医疗领域找到一席之地，人们已经耕耘探索了50多年，当然，整个过程并非一帆风顺。即使是致力于用计算机取代医生的诸多技术狂人也承认它被过度吹捧了，并且其应用场景有限，恐怕仅仅是为医生在临床中提供决策建议也难以做到。

时代在进步，逐渐普及的电子健康档案为人工智能系统和形成大数据提供了在纸质化时代难以想象的材料。而在当今有了沃森的时代里，我们又有了新的应用技术，比如自然语言处理和机器学习。或许这就是“缓慢积累、迅速爆发”的时刻。

二、计算机能够习得医生的诊断思维吗？

在医疗领域，大众关注的目光总是集中在一些知名专家身上，却很难留意到这么一群人：了不起的诊断学医生。在其他医生被人们所熟知的时候，他们却默默无闻。他们具有一种能够从一团混沌的症状、体征和实验室检查数据中抽丝剥茧地得到真相的非凡能力。实际上，英国著名作家阿瑟 ·柯南 ·道尔爵士也曾经是一名受过医学训练的医生，他正是以自己的教授，即当时爱丁堡医学院知名的诊断学专家约瑟夫 ·贝尔（ Joseph Bell）为原型创作了夏洛克 ·福尔摩斯这个角色。

对于众多医生而言，诊断学构成了他们临床实践的本质，成为他们专业的灵魂，也许正是因为这个原因，我们很难相信电子芯片能够替代专业临床技能。

20世纪70年代，塔夫茨大学肾脏病专家，也即后来担任《新英格兰医学杂志》编辑的杰尔姆 ·卡西勒（ Jerome Kassirer）决心要破译著名诊断学专家面对疾病时的认知模式。如果他成功了将会带来巨大的回报：这种富有洞察力、以解决问题为导向的策略和医学巨匠的思维模式将有可能直接传授给其他医生，并有可能用计算机语言编程。

卡西勒最初着眼于鉴别诊断，也就是那些医生长久以来根据患者的临床特征进行整理归纳、分类的方法。在诊断过程中包含着大量临床技能和诸多艺术思维的应用。例如，我们需要明确病人的症状是由于单一疾病引起的，还是说由两种或多种不同疾病引起的。奥卡姆剃刀定律告诉我们，应该寻找到能够解释病人所有症状的最简约诊断。虽然医学生谨记这个简明的临床法则，但是我们还需要权衡与其对立的希卡姆判词（ Hickam’s Dictum），后者代表的是“病人当然有可能会同时患有多种疾病”。

研究人员发现，其实医生从事的是一种“重复性假设检验”的工作，在这一过程中将鉴别诊断转化为确切的信息，因为病人经常有众多异常表现需要解释。医生在了解病例最初的信息后，就开始尝试用可能的原因去解释这种情况，同时随着病情的发展、收集到更多的信息后完善他们的诊断。

病人给出的每一次回答和体格检查，无论检查出是阴性还是阳性的体征都是一次对筛查诊断自动直观的校准。我在工作中观察同行业著名专家时发现，关于加州大学旧金山分校的吉尔普里特 ·达利瓦（ Gurpreet Dhaliwal）在2012年的《纽约时报》上曾有一篇报道，说的是当医生询问病人一系列看似无关病人主诉的问题时，实际上是在逐渐“缩小鉴别诊断范围”。

然而，诊断学是有更大的玄机的，这也是认知的魔法。资深的专家会敏锐地注意到一些信息，比如病人去年曾去泰国乡村旅游，而抛弃其他重要的信息，比如3周前出现腹痛、腹胀。由于初学者欠缺基本的知识体系去厘清，为什么他们的老师会着重于某个零碎的信息而无视初学者看来同样重要的其他信息，这是临床诊断学最令他们迷惑的地方，对于计算机而言，理解这些更是天方夜谭。

除此之外，对电子健康档案进行语法分析也是巨大的挑战。自然语言处理已经取得了长足的进步，但它仍然存在一些否定词和家族史的问题，比如“病人否认既往有胸痛或咳嗽”或不了解“患者的姐妹有关节炎，但母亲体健”，以及无法对一些症状体征进行命名。某些特定术语具有不同的含义，比如“ depression”对于心理医生而言通常是一种情绪上的异常，而对心内科医生而言，在心电图检查中则是“没有证据表明 ST段压低”的意思。此外还有缩写的问题，比如对患有 MS的病人，这个“ MS”究竟是什么意思，是多发性硬化还是瓣膜粘连的二尖瓣狭窄呢？最后还有一个问题，虽然众多工程师正在解决这个问题，但计算机并不能识别病人音调的变化和面部的紧张焦虑。“我胸痛”和“我胸很痛”为诊断带来的意思完全不同。

人工智能系统最需要学习、获取的恰恰是其复杂的认知过程，至少对现在来说，这可能是最难处理的问题了。让我们回到先前主动脉夹层这个病例，主动脉夹层是发生在主动脉血管壁上的撕裂，如果不及时处理后果通常是致命的。如果最开始有考虑主动脉夹层可能性的病史，哪怕是最微小的可能性，我也会询问病人疼痛是否会放射至后背部，并仔细听诊主动脉瓣关闭不全引起的轻微杂音，以及双上臂血压不对称的异常情况，所有的这些线索通通都指向主动脉夹层。如果不考虑这个严重且少见的疾病的话，我不会故意寻找这些线索，这些不是常规查体中的一部分。

几十年前，早期与卡西勒及其同事合作过的麻省理工学院人工智能专家彼得 ·施罗维茨（ Peter Szolovits）就已经认为，把诊断学当成简单的医患问答是不可行的。这主要是因为他考虑到了时间的重要作用，“5年前和 5分钟前的心肌梗死具有迥然不同的意义。”他解释说，而计算机并不会“理解”这些信息，除非工程师针对这些信息进行处理。对于我们来说，基本的知识对人工智能来说也是基本的信息，但计算机并不“理解”我们日常生活中用到的一些基本假设，比如液体是湿漉漉的、爱情是美好的、死亡是永恒的。

此外，许多医学推论依赖于反馈：通过观察事件进展过程，利用获取的信息修正可能的诊断。我们认为病人可能有细菌性肺炎，因而给予抗生素治疗“肺炎”，但病人在 3天后体温仍未下降。这时候我们会考虑结核或者狼疮的可能性。这是临床医生对患者的认知过程，相对于“诊断是什么”更应重视“我应该如何处理病人”。一个无法理解这一过程的人工智能程序，其应用价值必将受到限制。

三、转变范式，向医生取经

诊断学不仅令人兴奋，它还是医疗安全的核心。人们常常会出现诊断错误，并带来严重后果。大量的尸检研究表明，过去40年来有近20%的病人的主要诊断存在疏忽。随着CT扫描和功能性磁共振成像的出现，这个数字有所下降，但仍然维持在10%左右。仅美国而言，诊断错误造成的死亡人数每年就达40,000 ~ 80,000人。对医疗事故案件的回顾表明，诊断错误是导致医疗诉讼最常见的原因。

20世纪70年代，医疗信息技术专家开始陷入无休止的争论：能否设计出一系列的计算机程序帮助医生更好地诊断病人，或者完全替代医生。那个时期的学术文章充满了积极的观点：微处理器通过编程便能像专家一样思考，它很快就会替代繁忙的医生。1971年，一个早期计算机先行者受到了这种观点的影响，并写下来对它的赞歌：“它不会感到劳累，也不会粗心大意；它总是在不停地工作着，从白天到黑夜，从周末到假期，不需要咖啡、休息、加班，也不需要额外的津贴和美言赞语。”

到了20世纪80年代中期，悲观情绪开始蔓延。10年前看似充满希望的种种工具似乎都无法驾驭临床医学的复杂度，这些工具也没有取得医生群体的认可，商业前景黯淡。医学方面的人工智能发展近乎停滞，这标志着为期20年、被业内人士称为“人工智能寒冬”的开始。在该领域工作多年的特德 ·肖特利弗（Ted Shortliffe）曾说：以INTERNIST、DXplain和 MYCIN等软件为代表的早期成果使他想起了一个卡通场景，即一名医生正在诊察一个面露痛苦的病人，从这个病人背后插着的羽箭能够看出来这是一名射箭运动员。而后医生回到办公室站在计算机前，看了眼屏幕，之后叫：“心率加快、出汗、呼吸浅……根据计算机诊断，你可能得了胆结石。”

让我们回顾一下过去，早期人工智能程序的一个问题是，它们试图像医生一样思考，编写成千上万条小规则并加以判断。例如，“如果尿液试纸红细胞检测呈阳性，那么有可能是肾脏或者膀胱出现了疾患，但如果显微镜检查没有发现红细胞，那有可能是肌红蛋白尿，进而检查肌酸激酶水平”。这种模式很快就被证明站不住脚，就如你在奥卡姆剃刀定律和希卡姆的判词中了解的一样，我们的准则有时候会互相冲突，这时就需要人的判断了。

当IBM公司宣布，沃森在参加完《危险边缘》节目后将会进军医疗卫生行业，媒体立即开始炒作人类与超级计算机对抗的主题，但IBM的医疗战略执行官迈克尔 ·韦纳（Michael Weiner）却表示：“当然，有人会说‘看吧，计算机在一次智力竞赛中战胜了人类’，但我认为重点不是人机竞赛的结果，我认为真正的重点是人和机器可以在医疗领域协作解决一些问题。我认为这将会对所有人产生深远影响。”

针对此问题，我们曾采访过5位来自IBM的医生和工程师，他们都持有相似的观点。至于其原因，我猜想这里可能存在部分历史因素、商业原因、法律限制以及技术问题。

历史因素是： IBM公司非常了解医疗人工智能产品承诺太多却无法实现的历史，所以不想进入另一个炒作周期；商业原因是：IBM公司将产品的销售目标瞄准了那些由医生组成的或者是由医生运营的组织机构，而将待销售商品与客户进行较量通常会是个糟糕的营销策略；法律限制是：如果沃森仅仅只是一个工具、一个医生助手，当出现问题时，它可以因其“免责协议”规避责任；技术问题在于：似乎沃森的开发团队都体会到了医疗诊断的复杂性。到目前为止，即便 IBM公司的最终目标是让医疗人工智能替代医生，工程师们仍旧需要医生来教他们如何做到这一点，它需要与医生互动并且成为他们所在生态系统的一部分。

（书摘部分节选自《数字医疗：信息化时代医疗改革的机遇与挑战，经湛庐文化授权，较原文有删节。）

《数字医疗：信息化时代医疗改革的机遇与挑战》
【美】罗伯特·瓦赫特著郑杰译
中国人民大学出版社/湛庐文化 2018年1月

……………………………………

欢迎你来微博找我们，请点这里。

也可以关注我们的微信公众号“界面文化”【ID:BooksAndFun】