最近 Science 报道了一场诊断皮肤癌的人机大战,当机器学习了 13 万张皮肤癌图片时,其识别能力已超过经过 10 年以上训练的高级年资皮肤科医生。JAMA 杂志在去年底也发表了一篇机器学习识别糖尿病视网膜病变的文章。
我相信,任何有经验的临床医生在日常诊疗中都积累了大量的临床问题;做个 RCT 来解决该问题,在理论上虽然非常简单,但实际上这需要太大的投入而无法实施。
那为什么不用临床大数据分析的方式进行解决呢?
实际上,在临床问题和大数据研究之间有一个巨大的鸿沟,这个鸿沟就是数据挖掘。(想了解干货的,直接拉到文章最后)。
临床大数据从何而来?
临床医学作为信息密集型的一个体系,大数据也越来越突出其地位。
在这里,临床大数据包括了住院系统、门诊系统、社保死亡登记系统、传染病、肿瘤报告系统,保险系统等等。而住院系统与临床医生关系最为密切,其中又包含了 His 系统、电子病历系统、Lis 系统,影像系统。
目前国内从社区卫生院到大型附属医院都已经基本上完成了信息化的过程,伴随着医疗活动日复一日地进行,数据在不断地积累。因此,每个科室,每种疾病都足以形成一个独特的大数据集。
为了解决临床问题,研究者会对这些数据进行分析,从而发现数据背后的规律。这就是所谓的大数据分析。比如,为了有效预测院内心脏骤停的发生,我们就需要建立模型,而建立模型的基础就是平时积累下来的大数据,在这些大数据的基础上建立的模型才是最适合本医院的。
为什么要用大数据分析?
临床医生的诊疗靠的是循证医学,而循证医学顶级证据都是以 RCT 为基础的,这个伟大的体系已经持续了几十年,而今光芒依旧。但 RCT 已经出现了一些瑕疵。
比如 JAMA 上前些年就有报道,在循证医学最为发达的心内科,也只有 10% 的临床决策来自于高级别证据等级。也就是说大部分临床觉得我们无法找到良好的证据,依然是根据经验而行。
导致这样局面的原因在于RCT 的缺陷:
这些问题虽然不足以使传统的循证医学大厦倒塌,但却催生了以大数据为基础的临床研究。
之前提到大数据就是临床诊疗过程中产生的数据,不存在任何的加工排除标准,研究环境就是我们平时诊疗工作的环境,即所谓「真实世界研究」。
这里举个例子来解释下「真实世界研究」。例如某医院,因为疏于质控,某化验指标开始变得不那么准确,产生了一个系统误差,平日里医生的诊疗就是根据这个有误差的值做出的。
如果是做 RCT,那么在执行之前,势必要将这个检验重新定标,使其准确。待 RCT 完成之后,也许检验科的工作又回到了原先的状态,这时医生的诊疗又是基于有偏差的检验值得出。
这样的 RCT,虽然精确,但其结果的临床指导意义势必受到影响。
这时,反而是大数据「真实世界研究」愈加能发挥其作用,比如建立模型,根据有偏差的值做出的模型只适用于有偏差的诊疗环境。
临床大数据研究的价值
相比传统 RCT,大数据研究的其它优势显而易见:
它是现成存在的数据,只要编写程序导出数据即可,不像 RCT 需要花费大量人力物力进行实施;
大数据研究能解决这些临床问题
首先,临床大数据能解决临床诊疗常规中碰到的一些问题,及常见病的处理,因为只有这类问题才有大容量的数据积累。例如 Science 发表的皮肤癌的识别问题。试想,一个皮肤科医生穷其一生也难以学习到 13 万份皮肤癌图片,而利用大数据技术,几分钟就能完成这样的事情。而且程序是可以复制的,63 亿人如果人手一个手机,每个手机都植入一个经过学习的程序,那么就相当于每人拥有了一个私人订制的顶级皮肤科医生。