最近我们坐下来跟露西李医生,数据科学家陈扎克伯格Biohub (CZB)讨论她最新的研究估计隐瞒COVID-19病例。支持的研究AWS诊断发展项目全球计划支持组织工作带来更好,更准确,诊断解决方案市场更快。

告诉我们更多关于陈扎克伯格Biohub的任务和作用。
我的数据科学家陈扎克伯格Biohub (CZB),我的背景是在传染病流行病学。CZB是一个非营利研究机构,旨在为协作科学可以设定了标准科技领导人一起开车发现和支持大胆的设想来治疗,疾病预防和管理在未来的世纪。我们的目标是了解疾病的基本机制和开发新技术,将导致可行的诊断和有效的治疗方法。区域研究的努力与国际到达,在海湾地区领先的institutions-University加州旧金山分校、斯坦福大学,和Berkeley-joined部队CZB催化影响,造福人民和世界各地的合作伙伴。
你能告诉我们关于你的新COVID-19研究呢?
事情,使得追踪COVID-19挑战之一是,并不是所有人都有这种展览symptoms-I估计非常感兴趣的真实数量的感染。病毒基因组变异以相当恒定的速度传播整个人口,即使在无症状的个体的传播。这意味着每次有人新被感染,病毒会发生一点变化,突变以相当恒定的速度传播。所以即使我们不能测试所有人口,只要我们知道病毒变异的速度,我们可以推断可能的未被发现的人之间传播事件测试。对于这个研究,我创建了一个数学模型来估计未被发现的感染人数在12的位置在亚洲,欧洲和美国的大流行。
研究结果是什么?
我发现有一个非常广泛的感染,在这些位置未被发现。未被发现的感染的比率高达90%以上。我们还发现有明显的随时间变化的概率检测一个案例。当病毒第一次传送到这12个地点,超过98%的感染是未被发现在最初的几周,表明疫情已经起飞的时候,强烈的测试开始发生。
研究的实际意义是什么现在可以帮助我们吗?
知道有多少人被感染具有重要意义理解的范围大流行。而证实感染非常高,理解感染发生的额外数量的确诊病例可以帮助我们理解多少的人口已经受到病毒的影响。这些数字也适用于评估公共卫生监测系统的有效性。
要理解测试策略是如何工作的,您可以查看未被发现感染的比例随时间的变化。更多的测试和接触者追踪,未被发现感染人数越小,相比报医疗体系。设计有效的公共卫生信息也是有用的反应和干预,因为它强调位置在您的国家或在你的国家可能需要更多的测试资产。
AWS云服务扮演着什么样的角色在帮助你的团队进步的研究?
并行化
在计算中,许多计算或过程是同时进行的。这允许将大问题分成多个小问题,同时可以解决。
亚马逊网络服务(AWS)通过学分计算提供支持并提供AWS专业服务团队的专业知识,帮助扩大这一分析使用Amazon Elastic Compute Cloud (EC2)和AWS批。这些资源提供了一个框架,CZB可以使用在未来继续这项工作为其他数据集。从本质上讲,每个分析,我们进行需要很长时间,是计算密集型的。每个12的数据集,与我一起工作,我不得不测试成千上万的不同的参数设置和使用这些参数来模拟流行应该是什么样子的使用这些参数,同时也比较的数据我已经在眼前。这一过程可能需要数小时或天。AWS专业服务团队的支持下,我能够更好的并行化过程,以便我能在合理的时间内进行的工作,并可能在几天内报告数据,而不是几个月。
具体来说,您如何使用机器学习?
为了推断未被发现感染的人数,我使用了一个数学模型来描述冠状病毒从一个人传播到另一个地方。我训练模型可用数据,病毒基因组的12个地点,除了确诊病例的时间序列的每个位置。该模型的输出是infections-both确诊病例的总数和未被发现的感染。这个模型也有助于我们了解一些有趣的流行病学参数,如生育数量和角色super-spreading在导致这次大流行。
CZB重大传染病倡议COVID-19之前。COVID-19又是怎样影响组织的整体工作吗?
大多数人从事传染病项目CZB已将注意力转向冠状病毒检测和研究在过去的几个月。此外,Biohub已经与加州大学旧金山分校和我们的姐妹组织,陈扎克伯格计划,进行抗体检测和聚合连锁反应(PCR)直接测试用于检测抗原的存在。实验和计算方法,Biohub发达的回应这冠状病毒的爆发不仅会提高我们理解COVID-19在短期内,但他们也会在传染病基础更广泛的实用程序。
你有什么计划在研究这项研究?
我肯定感兴趣继续这种类型的分析在美国不同的州、县和定期的重复。因为我刚开始我的分析,网上有更多的病毒基因组沉积。所以我认为我要做分析,本月将提供更精确的估计这些感染的数字比那些我在最近的一篇论文报道了。这是一个日益增长的努力在加州Biohub做更多病毒测序在未来几周和几个月。最终的目标是使这些结果可供当地公共卫生部门,所以他们有另一个指标来跟踪感染的数量,即使全民测试是不可用的。
其他任何你想突出你的研究?
一个有趣的我们能够量化在遗传性有多少变化。你也许听说过“生殖”的概念描述了许多额外的感染每个受感染的个人原因。但这个数字仅仅是平均它并不提供全面的信息变量人民个体繁殖数量。但由于这种genomics-informed方法,我能够量化,可变性。在这项研究中,我估计大约80%的感染是由前30%最感染人。这一数字已经估计其他传染病,它与大流行性流感,但不像2003年非典爆发极端。2003年,大量的“非典”疫情是由这些极端“super-spreading”事件引起一个人造成数以百计的感染。冠状病毒的爆发,还有super-spreading事件,但他们似乎并没有那么大的作用在推动这次大流行。因此,虽然仍有个人超级传播者,或许更重要的是对当前的冠状病毒大流行的贡献super-spreading事件,大量的人聚集在一起。