透彻影像王书浩:用AI“复制”大脑
2018年全球新增癌症诊断病例约1910万,死亡病例约960万;约1/5男性和1/6女性在一生中会罹患癌症,1/8男性和1/11女性因癌症而死亡——这组惊人的数据,来自于WTO下属“国际癌症研究机构”公布的最新全球癌症数据报告,调查范围覆盖全球185万个国家和地区,涉及36种癌症的发病率和死亡率。
2018年全球新增癌症诊断病例约1910万,死亡病例约960万;约1/5男性和1/6女性在一生中会罹患癌症,1/8男性和1/11女性因癌症而死亡——这组惊人的数据,来自于WTO下属“国际癌症研究机构”公布的最新全球癌症数据报告,调查范围覆盖全球185万个国家和地区,涉及36种癌症的发病率和死亡率。
“谈癌色变”已经成为了一种常态。而在临床中,癌症的诊断、治疗也依旧是医学难题。
癌症诊断急缺病理医生,但AI可以“复制”大脑
在一些医疗影视剧中,借助CT、X光等手段,医生总是能够发现肿瘤的存在,然后会进行手术切除。不过,癌症诊断就这么简单吗?当然不是。这其中的关键在于“病理诊断”。
“病理不一样,癌的形态在这里可能成千上万种,识别方面要复杂得多。”透彻影像联合创始人兼技术总监王书浩称。
图 | 透彻影像联合创始人兼技术总监王书浩
作为一种筛查手段,CT、X光是合格的,但论起诊断,“相比于病理切片,CT片、X光片是灰阶图像,信息量比较小。”
一般情况下,癌的确诊需要经过病理诊断,所需要识别的内容比CT、X光要复杂许多。而在医学界,病理被称为“金标准”,病理医生则被称为“医生的医生”,是肿瘤类疾病的最终裁决者。
在中国,每年约有近亿张病理切片的诊断需求,与此相对的,是病理医生的“急缺”,培训周期长、劳动报酬低等成为阻碍病理科新生力量增长的主要原因。
“按照行业需求,国内临床需要10万名病理医生,然而注册在案的仅有1.2万名,缺口太大。”王书浩表示。并且这1.2万名病理医生的水平也存在一定的差距,对于当前的癌症诊断无疑是雪上加霜。
这个缺口如何进行填补?王书浩提出一个比较通俗的比喻,“AI类似于将一个人的大脑‘复制’,并且复制多份。”
“这样做可以带来三个好处:第一,AI识别的水平高于病理医生平均水平,相当于我们可以将高水平的诊断‘复制’到许多医院;第二,AI能够查阅每个角落,不会产生疲劳,不易漏诊;第三,相比于人类医生,AI更为客观。”
数据积累、模型识别、分布式计算“并驾齐驱”,推动病理科智能化
一般情况下,所有算法模型的第一步都是从数据采集开始,继而搭建并训练模型,最后在应用场景落地。这其中,数据采集对于多数初创公司而言就是一件较为困难的事情,中间涉及到数据多样性、标注准确率、伦理等多方多面,尤其是以医疗为代表的一干行业。
针对这一问题,除了与医院合作之外,既有开源数据是不少公司的选择。不过,“基于既有的开源数据集进行建模,然后产品就可以面世,我觉得这是很荒唐的。”王书浩表示,“产品需要与客户进行沟通、开展需求调研。另外,既有开源数据集存在数据量小、质量低、标注不准确、与应用场景差异大等问题,基于这类数据集进行建模,无法产出合格的产品。”
在数据采集方面,透彻影像的做法是跟医院紧密合作。王书浩认识到数据是AI的入口,早在草创之初,透彻影像就打磨了一款为医生设计的标注系统“ThoroughWisdom”。
医生只需在PC端或是iPad端大致圈出病变区域,透彻影像的算法就会自动完美勾勒出病变范围。另外,“运用这套系统为我们积累的数据也已经得到了数家顶级三甲医院伦理委员会的许可。”王书浩称。
与该系统并驾齐驱的是透彻影像基于这些数据所开发的诊断系统“ThoroughInsights”。系统将基于算法模型自动圈出病变区域,并给出病变概率分布与癌占比等信息,病理医生可以此为依据进一步作针对性的检查,从而提升效率。
图 | 301医院病理科副主任宋志刚正在使用“ThoroughInsights”
“两套产品是联动的,如果医生发现Insights模型对某些罕见案例的诊断效果不佳,会请主任进一步确认,找出识别或预测有误的根源,进而在Wisdom系统中增加类似案例的数据,继续进行标注,帮助系统不断迭代。”王书浩表示。目前,透彻影像的项目重点集中在消化道癌症、肺癌、前列腺癌、淋巴结清扫等方面。
这里有一个有趣的现象,在数字化变革愈加受到医院推崇的现在,作为医疗重要一环的病理科却是数字化进度最缓慢的科室之一,背后的原因在于病理图像的“大”,且一直以来没有足够的推动力。
相比于2000 x 2000像素的X光片、512 x 512 x 截面数像素的CT片,病理图像的大小通常为100kx 200k像素,以GB为存储单位。对于普通计算机而言,病理图像的存储和运算都是有难度的。
因此发展至今,医生观察病理切片依旧依赖于显微镜,而电脑的唯一用处只是撰写病理观察报告。这种模式下,在大型三甲医院,平均每位病理医生每天需要观察200至300张病理切片,并撰写上百份的报告。
与此同时,病理科也在经历从传统病理到数字病理的转型。数字病理将玻片电子化,所获得的数字切片既可以在计算机上存储和浏览,又可以通过网络进行传输。“一直以来,教学讲课和远程诊断的数字切片需求量不足以成为病理科数字化的推动力,而AI则对数字病理的普及有着极大的推动作用。如果病理切片扫描之后,能够被计算机分析,得出辅助诊断结果,病理医生们会非常愿意将之数字化。”王书浩称。
不过这种操作的背后也需要给力的系统,透彻影像的做法是打造分布式病理影像存储和分析系统“ThoroughCore”,将病理图像进行“切分”、“分析”和“整合”。简单来说,系统中的每个GPU都将成为一个工作节点,被切分的病理图像块将被分配至各个GPU计算,基于并行计算各自得出的结果将在最后被“整合”,从而生成最终结果,供病理医生查看。基于“ThoroughCore”的核心算法,“ThoroughInsights”系统预测一张病理图像仅需要不到20秒的时间。
最后
透彻影像的产品在这一年多来不断稳定迭代优化。今年1月初,他们针对胃癌的测试版系统已经落地301医院,公测版也已于本月发布,“我们会在4月份发布正式版产品。”王书浩说道。
此外,病理诊断分为细胞病理诊断和组织病理诊断,而透彻影像也分别围绕单个业务成立了公司。其中,北京公司专注于组织病理诊断,而专注于细胞病理诊断的公司则落户南京,并成为南京图灵人工智能研究院9大“人工智能+”签约孵化项目之一,该研究院由图灵奖唯一一位华裔获奖者姚期智院士创立。