AI医疗界的3大乱象以及如何评价医学人工智能的成果？

2017.08.15 11:28:25来源: 雷锋网作者:张利

雷锋网(公众号：雷锋网)注：本文作者代号HHH，目前为一家人工智能医疗创业公司的CEO，有10多年硅谷的高科技公司的工作经历(Google, Cisco等)，斯坦福商学院Sloan Fellow。

业内人的“针砭时弊”：AI医疗界的3大乱象以及如何评价医学人工智能的成果？

With machine learning situated at the peak of inflated expectations, we can soften a subsequent crash into a “trough of disillusionment” by fostering a stronger appreciation of the technology’s capabilities and limitations.

今年6月底的《新英格兰》刊出了一篇观点文章《Machine Learning and Prediction in Medicine — Beyond the Peak of Inflated Expectations》，《机器学习和医学预测--远超过高期望的峰值》，文章的批判方法算是很给深度学习这个新工具留面子了。

这里插播一句，我最近接触了一些自称主要关注医疗方向的投资人和创业者，发现有些人居然不知道这个地球上影响因子排名前几的临床医学期刊。《科学》杂志主刊2016年影响因子37.205分，《自然》主刊是40.137，而《新英格兰》是72.406分。当然，有可能这些人也不知道什么叫影响因子。

这篇文章借用了Gartner的技术成熟度曲线Hype Cycle，讲述现在对于医疗界来说深度学习处于过高期望的峰值（Peak of Inflated Expectations）时期，希望我们正确的理解这项技术的能力和局限性，继而进入幻想破灭的底谷期 (Trough of Disillusionment)，而不是彻底性的崩溃，然后才有然后：稳步爬升的光明期 (Slope of Enlightenment)和实质生产的高峰期 (Plateau of Productivity)。

业内人的“针砭时弊”：AI医疗界的3大乱象以及如何评价医学人工智能的成果？

文章用严谨和隐晦的语言，指出了现在医学人工智能界做的一些不靠谱、不合医学逻辑和没有临床价值的事情。回观国内市场，这些不靠谱、不合医学逻辑和没有临床价值的事情反而愈演愈烈，耗费了大量的资本和医疗资源，可谓几大乱象。

一、乐此不疲的人机大赛

医学是讲证据的学科，如何证明一项临床成果的先进性，实用性和稳定性，是个学问。

也许是阿尔法狗给大家带了个头儿，觉得用人工智能PK人类只要是平了或者赢了就是证据，于是大江南北人机大赛屡见不鲜：《人工智能PK最强医脑系列大赛》、《首届人机读片竞技大赛召开》、《AI-医师读片竞赛》、《XXX达到/超过人类医生的水平》等等，伴随着这些大赛的，往往是一系列的发布会。一共就十几个甚至几个医生参与，一共就几百张甚至几十张医学影像，最后的百分数结果保留至少四位有效数字，能够证明毛线？且不说是否有为了发布会安排结果的嫌疑，单就医生的水平、状态，数据随机性和广泛性都是论证过程中不堪一击的节点，不能细想不可追问。

二、乐于做不可证伪的预测

医学是讲证据的学科，可是总有一些问题是没有办法证明对错的。

最典型的就是做个体诊断的预测。预测，根据特征人群的患病概率来指导筛查是有价值的，但是对于个体诊断进行的预测是无法证伪也是不科学的。比如，预测特定的个体将有80%的概率患肺癌，和预测30%有本质区别吗？得肺癌可以说明前者更准吗，不得肺癌可以说明后者更准吗，没得肺癌可以证明明年不得吗？深度学习这个工具有一个所谓必杀技：有问必答。别问它怎么得出来的，它声称是有“像人脑一样的一套神经元思考”出来的。作为一个拟合函数，深度学习一定是有输入就有输出的，但是对于输出的结果，如果没有金标准检验，就方便做文章收智商税。《新英格兰》的文章中还提及另一种不可证伪，叫做本身就是一句废话，也就是浅显的道理。比如用人工智能来判断一个高龄且有各种病史的患者有极高的手术风险。临床需求是看哪种诊断或治疗方案更有用，而不是看谁说得废话更多。

三、脱离临床指南，幻想被树上掉下来的苹果砸到

医学是讲证据的学科，可靠的证据形成了临床指南，可靠的证据在推动临床指南的发展。

也许现在计算机的进步让更多的数据可以被利用起来来进行综合判断，但是在这些判断标准进入临床指南之前，都是科研探索的性质。《新英格兰》的观点文章中明确的提到了这种行为，这种没有已经探明的医学逻辑支撑，通过堆砌更多维度的数据妄想有所发现的行为，最终会陷于蝴蝶效应带来的困境之中。我国80年代曾有过大批群众激昂热情去攻克”哥德巴赫猜想“，当时的数学家看待这些群众的努力，也许就像现在医学研究领域的科学家在看大数据工程师们。听说全国有几百家做基因检测服务的公司，他们中的很多给投资人讲得故事就是拼命收集数据，数据堆得多了，深度学习自然就会发现规律。“读书百遍，其义自见”吗？科研工作，还是留给那些受过科学训练的人们吧。