与大流行病一较高下,人工智能的胜算在哪儿?
发布时间:2020-5-11 13:56阅读:424
过去几个月里,COVID-19肺炎疫情已在世界范围内多次爆发,其爆发途径大致相同:早期感染人数少,各方反应有限;而后随着流行趋势曲线的迅速攀升,各国开始实施全国范围的封锁行动,使得曲线重新趋于平坦。一旦疫情曲线到达顶峰,各国政府必须开始考虑美国总统特朗普所说的“一生中最大的决定”:何时以及如何解除限制措施。
整个疫情期间,人们特别重视在各国之间(尤其是与中国有关的)关于COVID-19传播的关键信息的共享。相比之下,关于如何利用过去20年改变了企业面貌的先进数据技术,来更好地诊治COVID-19的论述很少。在本文中,我们将讨论政府如何利用这些技术来管理未来的大流行疾病,甚至可以运用到本次COVID-19疫情的后期阶段。
打开APP 阅读最新报道
个性化预测的力量
制定COVID-19应对策略时,决策者可以考虑采用基于个性化需求的预测技术,该技术在过去20年中已改变了许多行业。数据驱动公司(从“大技术”到金融服务、旅游、保险、零售和媒体)使用机器学习和人工智能技术,针对顾客购买商品等行为提出个性化建议,并根据已有的用户个体数据来进行个性化定价、风险管理和定制信贷等服务。
例如,在最近的《哈佛商业评论》文章中,阿里巴巴前首席战略官曾鸣曾描述其小额贷款业务蚂蚁金服(Ant Financial)是如何通过分析阿里巴巴电子商务平台上的交易和通讯数据,来实时评估贷款申请人的。此外,像Netflix等公司会评估消费者过去的选择和行为特征,从而预测其未来的想法和行为。
类似的方法可能适用于预测COVID-19等大流行病的未来发展轨迹。使用多种数据源来训练机器学习模型,可以预测严重感染患者的临床风险:在资源有限的情况下,他们需要重症监护治疗的可能性是多少?死亡的可能性有多大?数据源可能包括患者的个人病史(COVID-19症状的严重程度,似乎随着患者年龄的增长以及诸如糖尿病和高血压等并发症的严重程度而增加)及其家庭组成等。例如,如果一个健康的年轻人与年老或体弱多病的人生活在一起,那么他/她就应该被归类为“高风险人群”(否则可能会被归类为“低风险人群”),因为他们一旦感染了其家人,其家人很可能需要接受重症监护治疗。
这些临床风险预测可用于自定义个人/家庭层面的策略和资源分配,以及合理核算标准医疗负债和风险。例如,它可以识别具有较高临床风险系数的人群,使我们能够针对这部分人群进行干预隔离和保护的同时,允许风险系数较低的人群过上相对正常的生活。当然,高低风险的判断标准目前尚待确定,其他的风险考量因素还包括可用资源和医疗责任风险等,不过这些数据已有标准的科学统计方法,并已在多种途径中投入使用。
个性化预测大有裨益。它可以帮助实现低死亡率的群体免疫,还可以更好、更公平地分配资源,如稀缺的医疗设备(如试剂盒、防护口罩和医院床位)或其他资源。
疫情后期也可以使用类似的方法制定限制解除策略(这是目前大多数国家应对COVID-19疫情的下一个关键步骤)。决定解除限制措施的先后顺序本质上是一个分类问题,与大多数数据驱动公司的分类问题相似。一些政府以年龄作为风险预测的标准,已经开始逐步解除限制状态,然而这其实是一种相对粗略的分类方法,有可能会遗漏部分高风险人群,如上文提到的与老年人一起生活的健康年轻人。
使用基于数据和人工智能技术的预测模型对人群进行分类,可能会帮助决策者制定解除隔离限制的策略。这种分类方法在社区层面来说是安全的,且个人和经济成本相对较低。我们都知道,COVID-19的一个关键特征是其具有极高的传播率,但重症率和死亡率相对较低。数据显示,90%以上的感染者只出现轻微临床症状或不出现症状。
从理论上讲,如果我们能够精准筛查出这个90%的群体,我们就可以解除这部分人群的限制。即使相互感染,他们不会出现严重症状,医疗系统也不会因不堪重负而崩溃。解除对这临床风险系数低的人群的隔离限制,也将有助于迅速建立高比例的群体免疫,届时剩余的10%也可以解除隔离限制。
如果预测分数是错误的,后果将仅发生在最先被解除隔离的“最安全”人群中。相对于治疗剩下的10%或以上的高危人群,现有的医疗资源更容易承担“最安全”人群的治疗任务。当然在实践中,我们会从临床风险系数最低的人群开始逐步解除隔离限制,之后随着时间推移建立群体免疫。
当然,完美的临床风险预测模型是不存在的,就像永远无法完善的医院分诊系统或信贷违约预测模型一样。然而,不完善的信贷违约预测模型并不妨碍企业和个人的信贷服务,只要这些企业和个人拥有足够高的信用评分,大多是不会违约的。可以肯定的一点是,COVID-19疫情的临床风险明显高于信贷违约,因此我们需要尽可能保证预测模型的稳健可靠,但这并不意味着我们完全不去考虑它的可行性。
与稀缺、昂贵并且部署缓慢的医学测试不同,这种临床数据驱动的个性化数字预测办法能够在市场上快速运用,并具有良好的可延展性。如果能够获得一个正确的预测模型,它将比目前的COVID-19追踪隔离系统更加安全和便捷。因为目前的COVID-19追踪系统会自动隔离所有感染者及其接触者,即使他们是低风险人群。
获取数据
目前,要想获取临床风险预测模型建模所需的数据存在难度。当然,各国政府可以通过采用更全面的电子病历来收集全国卫生数据,但这些数据不一定是准确的,因为电子病历的历史数据和病毒传播影响的建模需要一定时间。
本次肺炎疫情已迅速席卷全球,数百万人可能会因此受到影响。遏制疫情更好的办法可能是全球共创并共建同一个预测模型,利用早期的爆发数据训练该模型。一个同时包含数万名重症患者(需要重症监护治疗),以及大量轻症患者(只表现轻微症状)的数据集,足以实现某种程度的个性化预测。日后随着数据增长,预测质量也会逐渐提高。
一旦建立起该模型,就可以在早期传播阶段帮助到其他城市和国家,因为人们在病历中显示的基本生物和生理数据变化不大(每个个体都会变老,且中国武汉的糖尿病数据与美国巴尔的摩的糖尿病数据是一样的)。如果病毒袭击两个人口数量相近的国家,那么它们遭受的结果很可能也是相似的。所以,这两个国家完全可以使用同一个预测模型,而不必共享训练数据。当然,由于人口组成(日本的老年人口比墨西哥多)和生活文化等差异(意大利祖父母的儿童养育参与率比德国高),各国之间的数据模式可能会有所不同。不过,如果为数据开发和收集设置统一的标准和规范,数据分析师便可以根据不同的情况设计不同的适应模型。
我们来思考一下这该如何应用到此次COVID-19疫情中:当COVID-19病毒出现在中国武汉时,是不存在初始数据的,所以基于模型的个性化预测方法是不可行的。这个时候,封城是具有现实意义的——关闭城市,实行完全保持社会距离的措施,进行密切监测,除特殊情况没有例外。封城显然有效地遏制了疫情蔓延,也为中国政府创造机会去收集风险预测模型建模所需的训练数据。中国政府将此数据与其他国家共享,反过来又可以增加自己的训练数据,从而进一步改进预测模型。
隐私权的挑战
然而,实施创新技术需要重新修订现有的政策。现有的数据隐私与网络安全政策,以及各个国家的不同标准,将在很大程度上阻碍了我们所提倡的个性化大流行病管理办法。
这很大一部分原因是因为当前的政策无法辨别输入数据(用于训练模型)、预测模型本身和“输出数据”(基于训练模型的预测结果)。当某项政策直接或间接地禁止共享数据,或要求数据储存在某一个特定国家的服务器上时,就会导致所有法律解释为数据的内容都被隐藏了(包括模型及其参数)。因此,我们强烈希望决策者能够明确区分模型共享和数据共享的概念。
我们还鼓励各国政府磋商拟定关于数据共享开放时间的协议。例如,在世界卫生组织(WHO)或联合国(UN)宣布某个特定疫情符合构成大流行病的条件后,正常的隐私法案将暂时停用,各国将被允许共享匿名数据。在这种情况下,许多人可能愿意破例通过合适且安全的渠道,暂时提供个人数据用以模型训练,这样便可帮助政府制定具有重大生命意义和经济影响的政策。如果可以实现上述努力,那么现代数据科学和人工智能技术将可以极大地减轻此次大流行疾病所带来的严重后果,并为下一次大流行疾病的到来做好充足准备。
Theos Evgeniou、David R. Hardoon、Anton Ovchinnikov |文
Theos Evgeniou,欧洲工商管理学院(INSEAD)决策科学和科技管理教授 。
David R. Hardoon,菲律宾联合银行数据和人工智能高级顾问。
Anton Ovchinnikov,加拿大史密斯商学院管理分析杰出教授,欧洲工商管理学院(INSEAD)客座教授
本文首发于微信公众号:哈佛商业评论。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
温馨提示:投资有风险,选择需谨慎。

