打赢新冠病毒抗疫战要靠AI和大数据

新型冠状病毒肺炎(COVID-19)源于一种与严重急性呼吸道症候群(SARS)和普通感冒有关的冠状病毒 。结合大数据(big data)和预测分析,以及人工智能(AI)和各种热传感器,可望有效控制这种传染病的疫情扩散,从而使其致死病例数降至最低 。
由于目前对于这种病毒的检测能量有限,经常无法确定究竟有多少受到感染的病例数,使得这种病毒的真正危险性仍令人存疑 。数据分析技术对于支持流行病学专家具有决定性的贡献 。
数据分析就和数学一样,扮演着基本的作用 。如同过去几年一样,数据科学先驱对于世界的影响深远,在疾病扩散之际,利用数据和分析推动重大改变与进展 。从历史发展轨迹来看,数据分析的最早应用之一是在1854年伦敦宽街霍乱爆发(1854 Broad Street cholera outbreak)事件 。第一批数据导向的流行病学家之一约翰·斯诺(John Snow)对于伦敦的致死案进行地理空间分析,从而隔离了疾病的来源 。根据John Snow的分析,英国当局才能精准地采取防疫措施,迅速掌握传染病的扩散 。
如何评估数据?透过数据分析系统执行各种模型,已经证实能够大致上评估趋势的发展 。例如最常见的"易感-感染-康复"(Susceptible-Infective-Recovered;SIR)模型,这种流行病学模型用于计算"在一个存在具传染力病例的密闭空间中,被感染病例随着时间逐渐增加的理论数" 。该模型使用耦合方程式分析易感染人数S(t)、被感染人数I(t)以及康复人数R(t) 。最简单的SIR模型之一是Kermack-McKendrick模型,这种流行病模型也被认为是许多其他同类分析模型的基础,其中,我发现Ettore Mariotti的分析最有意思 。
首先要有一个岛屿,即人们无法自由进出的系统 。在某个特定时间下,每个人可能存在以下某种状态之一:"易感染"、"被感染"和"康复",因为从未患此病的人(S)很可能发病并在某个时间被感染(I),然后康复(R) 。以CoVID-19而言,更适于为此SIR模型中增加一项"已暴露"(Exposed)状态,这包括了带有病毒但尚未感染确诊者(无症状带原者)——SEIR模型 。

    推荐阅读