[导读] 来源:文摘菌 大数据文摘;作者:易琬玉
大数据文摘出品
作者:易琬玉
根据WHO下属“国际癌症研究机构”公布的最新全球癌症数据报告,2018年全球新增癌症诊断病例约1910万,死亡病例约960万。约1/5男性和1/6女性在一生中会罹患癌症,1/8男性和1/11女性因癌症而死亡。
对于癌症,早发现、早治疗,风险越小。癌症的形态可能千变万化,其确诊的关键在于病理诊断。
在医学界,病理被称为是肿瘤诊断的“金标准”,病理科的医生也被称为“医生的医生”,而一位能够独立签发病理报告的病理医师需要10年以上的培养周期。我国目前共有约1万名注册在案的病理医师,根据WHO的要求,人才缺口为4-9万人。培训周期长、劳动强度大等是阻碍病理科新生力量增长的主要原因。
近日,文摘菌走访了清华大学交叉信息研究院博士后、透彻影像技术总监王书浩,他告诉我们,“相比于CT、X光片这些灰阶图像,病理图像信息量更大。”
一张数字X光片大约由2000×2000个像素组成,一张CT大约由512×512×截面数(大约100-200)个像素组成,这样的图像保存后大小仍然在MB级别。而数字化的病理影像最高能够放大400倍,文件尺寸高达120k×200k量级,体积在GB级别。就像看起来平平无奇的电子地图可以高倍放大到看清街道细节一样,医生能够观察到组织的细胞形态甚至是细胞核形态。与此同时,病理文件的建模和分析也面临着诸多挑战,这些挑战需要从人工智能和工程层面去应对。
把中国病理医生的缺口堵上要花上超过100年时间
一位医生经过十年的培养才能独立签发病理报告,有人说,把中国病理医生的缺口堵上要花上超过100年时间,这造成现在病理医生诊断量非常大,病理医生工作繁重。
为了尽量减少误诊,美国要求病理医生一天的阅片量不得超过80张,但是因为人才短缺,中国的病理医生平均一天要看100-200张切片,而像中国人民解放军总医院(301医院)这样的大型医院,一天要看的病理切片的数量在300-400张。
因为病理切片需要放在高倍显微镜下观察,显微镜的强光对医生眼睛的损害很大。现在很多医院都配备有数字扫描仪,这样不仅可以将切片数字化后通过显示器完成诊断,而且能够使用AI进行分析。随着AI技术的发展,用AI来辅助病理医师对样本进行诊断能够大幅弥补病理医生的空缺。不仅能够大幅提高医师的诊断效率,而且可以减少漏诊,提高诊断准确率。
AI病理辅助诊断系统推动病理诊断智能化
从理论上讲,在一个定义非常明确的问题上,算法可以做到比一般医生更准确,可以无限接近资深医生的水平。在实际应用中,AI病理辅助诊断系统在落地之前需要解决的问题远比想象中要多。
数据采集
一般情况下,算法模型都是从数据采集开始,然后搭建并训练模型,最后在应用场景落地。这其中,数据采集对于多数初创公司而言都是一大难题,尤其是医疗行业,涉及到数据多样性、标注准确率、伦理等诸多方面。
在创业初期,透彻影像推出了一款专门为医生设计的标注系统“ThoroughWisdom”。医生使用iPad和Apple Pencil大致圈出病变区域,透彻影像的算法就会自动勾勒出病变范围。
训练模型
数据采集完毕后,就是对模型进行训练。病理影像的一个难点就是图像比较大,现有GPU无法单次完成整张病理影像的分析学习,所以需要先对图像进行切分。透彻影像在清华大学部署了一套基于TensorFlow的训练集群。在训练模型时,有一个非常重要的步骤是进行数据增强,以往数据增强主要是用于数据量不足的情况,但在病理模型的训练过程中,数据增强是为了人为增加扰动,模拟不同医院制片情况的不同。因为病理领域尚无统一的制片标准,每个医院制片过程不同,切片形态也不同,颜色有深有浅,有的偏红有的偏紫。训练之后,模型可以识别来自不同医院的不同切片。
为了提高模型识别的准确度,需要不断调整训练数据,王书浩博士提到,“之前模型对于高分化腺癌的识别率较低,是因为数据库中相关的数据相对较少。通过增加高分化腺癌的学习数据,可以在一定程度上提高辅助系统的准确率。当模型接近成熟时,还会加入疑难杂症的病理数据供模型学习。”
模型落地
透彻影像基于训练完成的模型,研发分布式病理辅助诊断系统“ThoroughInsights”。该系统可以基于算法模型自动圈出病变区域,并给出病变概率分布与癌占比等信息,病理医生可以以此为依据进行针对性的检查,从而提升诊断效率。
总结来说,AI病理辅助诊断系统可以在三方面对医生进行协助。首先是防止漏诊、提高诊断效率。其次由于AI“阅片无数”,其诊断结果比医生更加客观,王书浩博士介绍,“有时,301的医生无法达成一致意见时,会提出用AI来看一下”。第三就是改变了病理医生的工作模式——从低头看显微镜到抬头看显示器,减少了显微镜强光对医生眼睛的损害。
现实和理想的碰撞:人工智能医疗落地的难度
在采访前两周,透彻影像联合301医院的15名一线医生进行了一场人机协同病理诊断测试,测试用的切片来自301病理科副主任宋志刚挑选的100张有一定诊断难度的胃部病理切片。15名医生分为三组——显微镜组(采用传统的显微镜阅片方式)、数字组(通过数字切片进行诊断)、AI组(利用透彻影像开发的AI辅助系统进行诊断)。从准确率来看,相同时间下,AI组>显微镜组>数字组。以往文献认为数字切片比传统切片更易于查看,实验结果与这一结论相悖。宋志刚主任推测,其原因在于医生对于用计算机阅片不够熟练,所以观察数字切片反而不如用显微镜观察得心应手。
据301医院宋志刚主任介绍,病理医生一天诊断的切片中只有20%是疑难切片,但筛选出这20%的疑难切片往往要占用病理医生80%的工作时间。医生们希望将病理样本初筛的工作交给AI处理,以节省病理医生的工作时间。从这个思路出发,他们选择从胃肠部疾病诊断入手,构建出一个可以进行胃肠病理样本初筛的AI辅助诊断模型。
“一开始觉得这件事情挺容易的,后面真正做起来发现困难很多”,当问到AI病理辅助系统的效果时,宋志刚主任说,“我们现在还没有用它完全取代医生的病理诊断,而是把它当作辅助初筛、防止漏诊的工具。现在这套AI辅助医疗系统的敏感性没有问题,恶性的癌都能识别。当然,还存在一定的优化空间,例如会出现假阳性的情况。”
现在系统的敏感度达到100%,特异性为86%,这意味着在保证不漏诊的前提下,每一万份阴性病例中有约1400份可能会被识别为阳性,而这些假阳性的原因各不相同,需要病理医生对它们进行更加深入的诊断。持续提升模型的特异性,是透彻影像未来重要的研发方向。
从物理到AI,初心不改
2012年,本科大四阶段的王书浩被免试推荐到清华大学物理系攻读博士学位,研究方向是量子信息。
2014年三月底,在家休假的他鼓起勇气,给清华大学交叉信息研究院的徐葳教授写了一封邮件:
“尊敬的徐老师您好,我是清华大学物理系2012级的直博生王书浩,研究方向是量子信息,希望您不嫌弃我的非计算机专业背景,能跟我Chat一下。
虽然身为物理系的学生,但是我被IT领域所涌现出的新进展而震撼,并为这些新的技术而感到兴奋。……我非常希望能够加入到信息技术发展中的高潮中去(尤其是大数据)。这一点,我的导师龙老师也是非常支持的。
相对于计算机专业的学生,我的基础肯定会让您失望。不过,我有一颗勇于突破自我的心,而且,至少在科研中,我能够用文章证明我不甘于平庸。我还有三年多的时间在清华度过,想把自己的青春奉献到自己感到兴奋的事业中去。
希望能收到您的回复。”
让他没有想到的是,徐老师很快给出了回复。于是,他们在2014年愚人节的晚上,非常愉快地聊了两个多钟头。
“现在回想起来,那时的我真的是年少轻狂。直到今天,当我每次翻开那封邮件,都会百感交集,”对于王书浩博士而言,“那时的勇气,造就了我的今天。”
从第一次去到清华的地下数据中心,王书浩便开始了不断学习,和同学一起采集、分析、运行数据,同时用机器学习进行建模。
开始总是辛苦的。一方面,由于非科班出身,很多东西要从头学起,且合作的同学都是“姚班”的学生,天资远超于常人,王书浩要非常努力才能跟上他们的节奏;另一方面,因为他还在物理系进行量子信息的研究,带着一个几号人的小团队。“那时我经常与别人开玩笑说自己是重度精神分裂症患者,上午Quantum,下午System,晚上又变成了Quantum。”
当他慢慢开始听得懂交叉信息的组会,数据中心建模的研究也开始取得进展。同时,他还联合不同院系的同学成立了一个跨学科的研究组织——一个名为Quantum Computer Club的兴趣团体,让物理系的、数学系的、自动化系的学生一起去思考与讨论未来量子计算的可能用途。
第一份实习offer来自百度系统部智能数据中心团队,在那里王书浩开始看到了工业界是如何把教材知识变成生产力的。或许是受到物理学习的影响,王书浩“总想把书本上的东西,通过一个项目或者发明实现出来,这个可以实际地帮助解决社会问题,也能反过来促进一些理论理解,因为实践出来的就是真实可信的。”
读博期间,王书浩依旧是少数派。通常博士生在实验室里做项目居多,而王书浩则是在各大公司实习。面对京东的双offer,王书浩还是想做更有意义的事情,想用人工智能推动医疗的发展,“医疗这件事都是没有原罪对社会有益的……每天的努力都会创造社会价值”。
在和徐老师交流后,王书浩博士回到清华做博士后开始“人工智能医疗”的研究课题。就人工智能医疗的市场而言,医疗影像、药物挖掘、辅助诊断以及健康管理等各大方向已有人涉足,而病理却是一片蓝海,于是便以透彻影像(北京)科技有限公司技术总监的身份开始创业。
现在,理科出身的王书浩博士已经能够和病理医生顺畅沟通,而在最初,他也是一个病理小白。用他的话来说,“病理医生是最愿意教也最愿意学的一群人,他们愿意手把手地教我这个新人,也愿意从我这里了解人工智能,病理科的医生们现在讲起AI,比我讲得还要生动”。
“未来的病理科应该是全数字化的”,这是王书浩的憧憬,“除了诊断,之前的制片、染色等过程也都可以通过机器自动化。”
透彻影像从logo到公司宣传都有相同的浅紫色主色调——这是病理切片制片时所用的HE染色剂的颜色。王书浩说,“我们正在绘制一张未来病理的蓝图”。他从来不怕开始进展慢,“因为有句话叫做万事开头难”,“还有另外一句话是好事多磨”。
共0条评论