读心有术：人工智能预测心脏病风险-香樟经济学术圈的财新博客-财新网

推文人 | 周俊铭

原文信息：Mullainathan, S., & Obermeyer, Z. (2019). Who is Tested for Heart Attack and Who Should Be: Predicting Patient Risk and Physician Error (No. w26168). National Bureau of Economic Research.

一、背景

心脏病对健康有很大危害，严重的情况下甚至在几分钟内可以致死。虽然心脏病在发病前会出现某一些症状，但这些症状既微妙又容易和其他病征混淆，因此难以准确地提前判断心脏病。

为了尽量预测心脏病的发生风险，医生会根据病人描述的症状等信息，考虑是否要求病人接受专门的深入检查。已有研究和政策报告都指出，检查与否等价于二元结果的预测问题。具体地，医生在心理上设置了一个门槛值，如果觉得某个病人的风险足够高，她接受检查的回报高于门槛值，医生就要求她接受检查。就是说，医生作出预测，结果则是二元的：检查or不检查。虽然这些检查是目前临床上采用的先进医疗手段，却因为费钱费时，而被美国的卫生政策当局认为是高投入低产出的。

二、变量和数据

病人接受检查，是需要付出成本的，但检查的结果只是关于病人心脏情况的一个信息，信息的价值难以衡量。所以，在论文中，两位作者使用“接受检查的病人后来是否接受手术”来作为算法的结果变量，其好处有二：一方面，二值变量“是否手术”和病人的发病风险正相关。最终实施手术的可能性越大，意味着病人的发病风险越高，她就越应该接受检查，对她而言检查的价值就越高。另一方面，选取这个二值变量便于直接进行社会福利的定量分析。当然，选取这个变量就意味着剔除那些未检查的病人数据，难免出现内生性的问题。如果顺利，我们能够看到，检查过的病人应不应该接受检查，却总是看不到未检查的病人的情况，而这两类病人可能存在异质性。无论如何，论文作者还是尝试去解决这个问题，分别利用两类病人的数据，作出不同的分析。

论文的数据主要来自美国的医保数据库在4年半时间内、逾2千万人次的急诊记录。另外，论文作者还使用了一间大医院的电子病历记录。从这些就诊记录中，论文作者提取出有含义的词，再对照《国际疾病分类》等官方指南而得出超过2千个用于计量模型的因变量，然后论文作者使用了“梯度增强型决策树”和LASSO算法来进行预测。

三、结论

机器学习算法允许我们看到样本内的每个接受过检查的病人后来有否实施手术，以及算法所预测的手术可能性（用来刻画心脏病的发病风险）。预测的准确度为70%左右，根据预测的结果，我们可以把每个病人按发病风险从低到高依次排序，从而把样本十等分，得到发病风险从低到高的10个病人分组。

结果显示，整个样本内有13.8%的病人在检查后实施手术，但在最低风险的那一组中，仅2.2%的病人最终接受手术了。显著的比例差异暗示了，低风险病人可能不必接受检查，这也为我们提供了改进的空间。

更进一步，论文作者想定量分析检查的成本。他们先按健康状况分别折算了病人的“经生活质量调整的寿命”。这种折算方法广泛用于流行病学和公共卫生领域的研究，经过折算，不同健康状况的人的寿命变得可以比较，例如，正常人的1年寿命可能就等价于瘫痪者的2年寿命。然后，论文作者把样本内每个病人的检查成本折算至以“美元/年（经调整）”为单位。因为检查不仅耗费金钱，还对病人造成生理负担，这种操作相当于先把样本的病人作标准化处理，再计算检查成本，使我们能够直接比较不同病人的情况。

现有研究普遍认同，一个美国人一年的生命价值约为10万—15万美元，而样本内病人接受检查的平均成本为13.6万美元/年。检查的成本和回报只是勉强相抵，难怪卫生政策当局会建议医生尽量减少这类检查。然而，机器学习允许我们看到更加精细的结果：最低风险的10%病人的平均检查成本超过61万美元/年，最高风险的10%病人的平均检查成本不到9万美元/年，在接受检查的病人之中，成本大于15万美元/年的占52%。由此可见，对于那些本来不值得检查的病人，医生也要求他们接受检查，所以才导致整体上呈现了过度检查的现象。

另一方面，通过分析样本内没有接受检查的病人的情况，论文作者暗示了检查不足的问题同样存在。利用数据库中的心电图和生物标记物的记录、医保报销记录，论文作者尝试去估计，那些求诊却没有接受检查的病人，假如当初接受了检查，最终他们的健康状况可能会有什么变化。结果是，即使保守地估计，对于最高风险的那一组病人，算法预测的检查比例也大于事实的，换言之，实际上医生忽视了高风险病人，如果这些病人更多地接受检查，他们后续发病的概率将会减少。

最后，论文作者设想了一项措施来改进福利：让某些检查成本过高的病人不接受检查，反过来，让某些值得却没有检查的病人接受检查。以15万美元/年的门槛值为例，因为有52%实际上接受检查的病人的成本高于门槛值，我们可以把这些病人从检查名单上剔除，同时，有18%的未检查病人却是应该接受检查的，因为他们的检查回报高于门槛值，我们可以要求对这些病人进行检查。这项措施能够增加5.3亿美元的社会福利，其中3亿美元来自减少检查所节省的医疗支出。

四、附注

论文的其余部分讨论了医生的判断不如算法的两个可能原因。一则，医生有激励要求病人尽量多地接受检查，更多的检查不仅带来更多的收入，还能减少误诊的发生，这导致了过度检查。二则，电脑能够全盘考虑许多维度的信息，人脑的理性却是有限的。在短时间内面对复杂的决策问题，强如医生也难以算无遗策。这使医生放过了一些高风险病人，导致检查不足。

论文所涉及的心脏病是指急性冠状动脉综合症，通俗地讲，就是冠状动脉发生急性栓塞，使心脏或脑部的供血不足，从而致人死亡。在栓塞发作前会有一些微妙的生理表现，如隐隐胸痛、心悸气促、头晕恶心等，但这些表现往往和胃酸返流、背部神经刺痛等其他病征混淆，所以不容易判断，病人需要接受专门的深入检查才能确诊。临床上的检查手段主要有“压力测试”和插管造影，前者要求病人在仪器监测下大量运动，这时可以动态检查病人的心脏情况，后者则是从血管插入一个成像设备，来查看冠状动脉有否堵塞。相应地，论文所涉及的手术就是指冠状动脉再通的手术，推文配图反映的手术就属于此类。

这篇论文的实证设计的整体思路和2018年QJE的一篇论文类似，毕竟来自芝加哥大学布斯商学院的 Sendhil Mullainathan 参与了两篇论文的写作，详细请见：

机你太美：机器学习如何协助法官判案

Abstract

In deciding whether to test for heart attack (acute coronary syndromes), physicians implicitly judge risk. To assess these decisions, we produce explicit risk predictions by applying machine learning to Medicare claims data. Comparing these on a patient-by-patient basis to physician decisions reveals more about low-value care than the usual approach of measuring average testing results. It more precisely quantifies over-use: while the average test is marginally cost-effective, tests at the bottom of the risk distribution are highly cost-ineffective. But it also reveals under- use: many patients at the top of the risk distribution go untested; and they go on to have frequent adverse cardiac events, including death, in the next 30 days. At standard clinical thresholds, these event rates suggest they should have been tested. In aggregate, 42.8% of the potential welfare gains of improving testing would come from addressing under-use. Existing policies though are too blunt: when testing is reduced, for example, both low-value and high-value tests fall. Finally, to understand physician error we build a separate algorithm of the physician and find evidence of bounded rationality as well as biases such as representativeness. We suggest models of physician moral hazard should be expanded to include ‘behavioral hazard’.

话题：