深陷在AI“迷信”的医疗保健乌托邦
现在,Parsa希望通过添加一款人工智能聊天机器人,来进一步提高效率和降低成本。Parsa承诺,该聊天机器人可以在没有人类互动的情况下,就常见疾病提供诊断建议。
2017年12月,一个星期五的晚上,伦敦医疗应用开发商Babylon Health的创始人Ali Parsa,与自家的医生坐下来进行了一次交流。这位出生于伊朗的前银行家,依靠该公司的高评分应用,为Babylon融资了8500万美元。这款应用可以让英国患者快速与医生进行视频会诊。在英国,国营医疗保健为每个公民提供了高质量的医疗服务,但是却要耗费很长时间等候门诊。这款应用的出现改变了这一局面。
现在,Parsa希望通过添加一款人工智能聊天机器人,来进一步提高效率和降低成本。Parsa承诺,该聊天机器人可以在没有人类互动的情况下,就常见疾病提供诊断建议。Babylon的应用用户将于12月享受到这款全新机器人的服务。在未来某个时候,英国国家健康服务机构(NHS)的患者也将享受到相应的服务。但问题是,根据这些医生的交流,机器人给出的建议经常是错误的。
据一名现任和前任工作人员称,为了证明他们的观点,医生们花了大约一天时间,主动进行了一次审计。据一位知情人士称,他们发现,聊天机器人给出的100个最常见的结果中,约有10%至15%的结果,错过了更严重疾病的警告信号,或者完全就是错误的。这些临床医生周五直接向Parsa进行了汇报,希望推迟新的发布。他们提出了自己的理由,经过一番谈判,他同意推迟发布。
但是医生们仍然感到困扰。对现任和前任Babylon工作人员以及外部医生的采访显示,他们普遍担心该公司匆忙部署了未经仔细审查的软件,并夸大了其有效性。
根据一位外部医生展示的电子邮件,2018年4月,一家英国广告监管机构要求Babylon删除其网站上的一项声明,该声明宣称其分流功能能够100%的给出安全建议。该机构同时援引了一项关于这一声明的“独立研究”。但是根据Babylon自己在2016年发表的研究论文,这项研究来自一次内部测试,在测试中,它雇佣了专业演员扮成病人,并按照剧本进行流程。
在那次周五会议后的六个月,Parsa在伦敦皇家医学院举行了一场盛大的直播活动,宣布Babylon的新软件——人工智能驱动的聊天机器人——已经达到了“全球医疗第一”的水平。Babylon展示了机器人在医学检查中的得分高于人类医生的平均得分,并声称人工智能已经达到了人类医生的“同等准确度”。当时,多家媒体报道了这一成就。
布朗大学生物医药信息学教授Hamish Fraser表示,这一声明是有问题的。他在英国主要医学杂志《柳叶刀》最近的一篇文章中反驳了Babylon的声明。他指出,Babylon的软件只回答了50个检查问题中的15个,并被允许对每个问题给出三个答案。“当医生做这个测试时,你会得到一个正确的答案,”他说。Babylon表示,它没有试图证明人工智能比医生更好,Parsa也退出了这篇文章的预定采访。
人工智能还没有发展到可以替代(甚至可靠地协助)人类医生的程度,这一点可能不足为奇。而傲慢的科技企业家对他们的产品进行过高的宣传,也并不是什么新现象。这一切都不太重要,但是Babylon与英国国家医疗服务机构签订了两份合同。英国国家医疗服务机构是世界上最大的国有医疗系统之一。Babylon的GP At Hand应用向3.5万名NHS患者提供了视频通话支持,并可以让其访问分流聊天机器人,以获得是否就医的建议。NHS还鼓励200万公民使用NHS 111: Online——一款由Babylon开发的应用,主要用来代替NHS咨询热线。工作人员表示,NHS还没有使用Babylon的诊断建议聊天机器人,但该公司已经讨论过将这一功能引入NHS应用中。
NHS的动机很明确,也很简单:它既想省钱,也想为病人带来更好的健康结果。2020年,英国将在国家医疗系统上花费近2000亿美元,相当于GDP的7%。自1950年以来,这一占比已经翻了一番,因此英国迫切需要找到一种方法来控制成本,同时仍能提供被视为英国社会契约核心的福利。
减少急诊室就诊似乎是很合逻辑的,因为每次就诊平均花费NHS 200美元。在过去的一年里,NHS为此总共花费了40亿美元,而由于至少有150万英国人在不需要的时候也会去急诊室,导致候诊时间不断增加。如果Babylon的聊天机器人效果很好,将会对节省成本有很大的帮助。
但是,人们质疑该软件的有效程度。Babylon的一名工作人员称,早期和当前版本的聊天机器人,在大约30%的情况下会建议用户去急诊室;相比之下,拨打国家健康咨询热线111的人大约只有20%。不清楚有多少病人接受了聊天机器人的建议,Babylon表示自己并没有跟踪这些数据。
即使在诊断建议聊天机器人最终被修复,并于2018年1月发布给Babylon私人应用用户之后,一些Babylon医生仍然对他们没有看到开发过程中更严格的改革而感到担忧。而在公司外部,发现的问题数量也越来越多。6月,一名正在Babylon应用上测试新诊断聊天机器人的英国医生发现了一个错误:它错过了一个肺栓塞的症状。他在Twitter上发布了一段视频,并向医疗监管机构MHRA进行了投诉。根据该医生分享的电子邮件和私人Twitter消息,这至少是他在过去一年半中第三次投诉聊天机器人软件。据Babylon内部消息来源称,被MHRA记录为事故的一些错误,直到2018年11月,仍然存在于内置聊天机器人的健康应用上。MHRA以保密为由不予置评。
Babylon表示,MHRA要求其调查这些投诉,但“随后没有基于安全相关的理由展开正式调查”。当被问及MHRA记录的错误时,Babylon坚持认为“任何临床概率分析都不可能总是正确的”,并且“即使非常有经验的医生有时也会错误地诊断”。
而在这一切正在发生的过程中,Babylon成功地将自己推销为医疗系统过度扩张的数字药膏。该公司最大的粉丝之一是英国卫生部长Matt Hancock,他最近在一份由Babylon赞助的报纸副刊中宣称,他“因使用这款GP at Hand应用而出名”。
Babylon应用的海报经常出现在伦敦地铁上。据Parsa称,该公司正在预订数千万美元的收入,包括与NHS签订的GP at Hand合同(预计290万美元)和NHS 111合作伙伴的收入。NHS England的发言人和Hancock没有回应置评请求。
一名前工作人员表示,Babylon软件的最大缺陷之一是缺乏真实的临床评估和跟踪。使用聊天机器人的人真的去过急诊室吗?如果他们看了医生,那诊断是什么?一名前员工表示:“目前还没有找到能够提供答案的系统。”Babylon表示,其GP at Hand应用在用户使用聊天机器人24小时后会向他们发送信息。据一名用户称,应用会询问更多症状。
软件是通过迭代开发的。开发人员构建了一个应用并将其发布,在不同的实时用户群体上测试它,并在前进的过程中不断重复。这种硅谷心态,曾经被马克·扎克伯格总结为“行动迅速,打破现状”。但是开发新药或医疗器械需要一种更慎重的方法,因为患者的生命是悬而未决的。Babylon尚未在同行评审的医学杂志上发表任何研究成果,而这一过程往往也是需要时间的。
该公司的首席医疗官Mobasher Butt坚持认为,在市场上部署之前,Babylon“经历了临床医生对产品许多许多轮的严格测试。”该公司承认它没有进行医学研究,并称未来进行医院研究时,它会在医学杂志上进行发表。
对Babylon人工智能的担忧指出了医疗系统与科技初创公司合作时可能会出现的困难。虽然Babylon已经将自己定位为一家医疗保健公司,但它的运营似乎更像硅谷的初创公司。一名工作人员说,“公司的重点是快速构建并推出”,并补充说,Parsa喜欢和员工谈论“逃逸速度”。短语“快速构建”出现在至少一名Babylon工作人员的电子邮件签名下。该公司内部的医生甚至在解决安全问题时也很难让人们听到他们的声音,而现任和前任工作人员表示,数据科学家被视为摇滚明星,不过他们表示,过去12个月,情况已经开始好转。
Babylon称这些断言为“诽谤”,并指出定期审查的举报政策和专用电子邮件地址是其“安全第一文化”的关键。它宣称,员工“有义务将任何问题正式提交给当局”。一名现任和前任员工表示,他们不知道有举报电子邮件系统。
尽管一些医生很谨慎,但Parsa还是因其坚韧不拔的精神和宏伟的愿景而受到伦敦科技界的推崇,认为他将“把方便和负担得起的医疗服务带给地球上的每一个人”。对许多人来说,这是一种令人耳目一新的企业家精神,在谦逊的英国你并不总是能找到这种精神。Parsa的故事令人鼓舞,他出生在伊朗的Ali Parsadoust,父母是中产阶级,17岁时为了逃避革命,作为难民来到英国。他自学英语,然后进入了高中和伦敦最负盛名的大学,在那里他发表了工程物理学博士论文,并积极参与到学生政治中。虽然他的职业生涯建立在投资银行业,但他的心始终关注着社会正义。
将他的社会乌托邦本能与商业结合起来并不总是奏效。2003年,Parsa通过共同创建一个名为Circle Health的“社会企业”,进入了医疗保健领域。然后在2011年,Parsa通过获得一份合同,成为第一家接管国有医院的私营公司,而创造了历史。这家医院是位于剑桥郡的Hinchingbrooke Hospital。Circle做出了削减成本的崇高承诺,包括在10年交易中,可以为NHS节省超过4.95亿美元。Parsa于2012年退出,当时该公司仍处于债务之中。2015年,Circle保释了这一合同。审计人员表示,他的出价“过于乐观”。Parsa离开Circle一年后,创办了Babylon,并最终再次与NHS签订了重要合同。
为了巩固这种关系,并为扩大到更多患者奠定技术基础,Parsa正在雇佣软件工程师。它最近承诺投资1亿美元进一步开发他的人工智能。
但是,为医疗保健构建人工智能可能需要进一步反思Babylon技术的设计方式。简而言之,它的诊断引擎是基于一套复杂的规则。这些规则由临床医生决定,并在电脑中输入一系列症状的概率。随着规则数量的增加,软件做出决策的路径变得更加复杂和难以改变。那么,你如何让这样的聊天机器人变得更聪明呢?一种方法是提高其语言能力。另一个是改进支撑它的诊断引擎。“如果Babylon拥有医疗记录,他们可能会更准确,”Action.AI首席执行官John Taylor表示。Action.AI是一家伦敦初创公司,帮助公司构建聊天机器人。
为了更好地诊断,我们需要训练软件深入了解反馈回路:在一个人描述自己的症状,然后去看医生,接受x光检查,并有可能接受进一步治疗后,会发生什么?Babylon表示,它可以访问健康改善网络研究数据库,该数据库包含不可识别的患者数字记录,但目前尚未向监管机构请求访问医疗记录。
对于Babylon来说,要实现用更智能的技术提高医疗保健提供商效率的愿景,它可能需要在更多的患者记录上训练算法。为此,它需要继续赢得监管者和医学界的信任。