完爆美国CDC的疫情地图背后是两名中国博士生,我们采访了他们_南都

完爆美国CDC的疫情地图背后是两名中国博士生,我们采访了他们_南都
完爆美国CDC的疫情地图背面是两名我国博士生,咱们采访了他们 “约翰·霍普金斯大学发布的最新计算数据显现……” “According to the Johns Hopkins University tracker……” 跟着全球疫情迸发,约翰·霍普金斯大学的疫情地图数据高频呈现在了各大媒体报导中。该地图还登上过顶尖医学期刊《柳叶刀》。就连美国副总统彭斯在卫生部门开会时,背面也是这一疫情地图。 2020年2月27日,在华盛顿的卫生与公共服务部举办的新式冠状病毒工作会议。图自美联社/安德鲁·哈尼克。 而在这些数据背面,团队首要成员是两名我国留美博士生。 近来,南都记者采访了两名开发者、约翰·霍普金斯大学体系科学与工程中心一年级的博士生董恩盛、杜鸿儒。 1 咱们与美国疾控中心的数据是一种互补联系 南都:多家国内外媒体征引了你们的数据,有人称这比美国疾病操控和防备中心(CDC)发布的数据都更及时、完善,你们怎样看? 杜:美国疾控中心的更新相对滞后,并且他们周六日不更新,所以不能继续地为用户供给数据。此外,咱们的疫情地图推出时刻很早,许多用户在推出后就继续追寻运用,构成了一种习气。 董:其实咱们与疾控中心的数据是一种互补的联系。疾控中心的数据有权威性,但咱们的数据在牢靠的基础上愈加及时。咱们比CDC最好的当地在于,咱们的数据精度较高,准确到了县市级。 南都:现在有什么新发展? 杜:处理了之前的数据更新问题,能够进行自动化的信息抓取。接下来想提高数据的精度,将德国、法国和南美洲的国家数据呈现详尽到省区级的精度。 南都:拜访用户的状况有什么改变吗? 董:到4月7日上午11点,网站已有161亿总点击量。跟着新冠肺炎席卷全球,部分国家官方疫情信息发布较慢,尤其是在非洲、南美洲。因而,从拜访量和来历看,这些当地的部分民众也会常常拜访咱们的疫情地图。 不过,现在做疫情可视化地图的组织太多了,虽然咱们的更新速度很快,但像德国、法国等国的部分组织将数据准确到省市等级,因而来自欧洲的拜访量减少了。但假如要了解世界全体的改变,一般都是看咱们的地图。 2 网站日流量曾达20亿,服务器曾三次瘫痪 南都:一开端为什么会想做疫情可视化地图? 董:老板(注:导师劳伦·加德纳,Lauren Gardner)是研讨疾病传达进程的专家,咱们就跟着她一同做。一起,咱们的初衷是,期望通过追寻数据,能够调查一场疫情从生到死的进程。 南都:团队有多少人? 董:25人左右,首要担任的仍是咱们两个人和导师。外围成员首要担任服务器保护、编程处理、媒体交流等。 南都:在制造进程中有没有发现数据改变的特色、规则? 董:根本上每次服务器瘫痪,都是在疫情有所改变的时分。能够说,咱们服务器宕机的节点与全球疫情改变的节点呈正相关联系。 第一次大约是武汉的疫情数据规范(注:临床发现的新冠肺炎病例也加入到确诊病例中)发生改变的时分,咱们发现人数忽然陡增,很多人到咱们的网站上看;第2次是意大利疫情迸发的时分,许多意大利民众涌入网站,其时意大利的用户数还超过了美国的;后来第三次高潮,首要是美国疫情迸发,咱们都挺重视美国的数据。 南都:现在有什么困难? 董:之前困难是从来没有受到过这么多重视(笑)。因为流量太大了,常常把咱们的体系整溃散了。像3月12日,一天的全球拜访量就有20亿。为此,咱们现已换了至少三台服务器。 3 钻石公主号的撤离人员应怎样符号?这里有个隐私问题 南都:数据来历是哪里?是怎样处理的? 董、杜:世界卫生组织、美国疾病防备操控中心、欧洲疾病防备控中心、我国国家卫健委、当地新闻报导和卫生部门,以及丁香园等。现在,咱们运用了半自动化的实时数据流战略。咱们会与计算机系的朋友协作,让他们运用机器学习、自然语言处理等技能在网上查找相关信息,但为了保证数据准确性,咱们还会进行人工比对核实和手动更新。 南都:可视化的进程对你们来说难吗? 董:我之前有可视化阅历,所以在技能思路上相对老练。但在数据来历和数据结构建立上仍是遇到一些困难。一是数据的半自动化比较费事;二是需求考虑地图上点的放置,不同国家的数据层级等问题。一些小功用的添加其实会让数据有很大变化,或是添加服务器的担负。 杜:举例来说,咱们后来添加了数据更新时刻。这其实是有难度的,因为咱们的用户来自世界各地。后来,咱们把地图时刻调整为格林尼治时刻(注:全世界的时刻规范),但相应的也需求把曾经的数据做很大的调整。 从制造到第一次发布大约花了六、七个小时,但之后每一次改善花的时刻都十分多。 南都:接下来疫情地图还会做什么改善吗? 董、杜:添加更多的可视化东西、进行进一步的数据揭露。其间,可视化可能会准确到美国郡县级(注:相当于我国的市级单位),但因为涉及到隐私问题,咱们也会再考虑。 举例来说,咱们之前在处理钻石公主号的患者符号方位时,就遇到了一个“隐私乌龙”。其时,部分钻石号旅客撤回到美国。因为患者详细方位不明,咱们就挑选将点符号在美国相对而言的一个地舆中心——堪萨斯州。但有些美国人比较喜爱探究,会扩大地图,扩大到最终发现这个点落在他们小区上。他们认为自己小区竟然有新冠肺炎病例,但实际上不是这样的。小区上报给当地卫生部门,又再层层上报,最终咱们校园的新闻官告知咱们赶忙调整一下。所以,咱们将点暂时放回了钻石公主号最终的停靠方位,日本横滨港。 现在咱们的处理是,地图扩大到必定程度,符号的点就看不到了,不让他们把自己家和这个点构成对应联系。 南都:钻石公主号的数据为什么独自处理? 董:这其实是跟世界媒体的报导有联系。一开端咱们把钻石公主号的一切事例归结为日本当地的事例,之后又把日本国内的事例与钻石公主号分开了。咱们就从头调整了数据,这也形成可视化的时分,日本计算数据有了断崖式下降。但这个不是数据自身的问题,而是初期全球计算的一个误差。 4 朋友转过来说挺好的,最终发现是咱们做的 南都:你们专业的详细研讨内容是什么? 杜、董:咱们两个的首要方向是疾病模型,也便是用数学模型和计算机代码来解说一些流行病学、公共健康方面的问题。研讨偏重的不是医学自身,而是对全球流行病的发展趋势做根本判别和估测。 南都:什么时分发现疫情地图受到了广泛重视? 董:一开端是发现校园内部发了新闻稿件,接着校园主网站的头版头条推送了咱们的疫情地图。后来开端呈现了“逆向传达”的现象,比方我的朋友会转发给我,说“要不你看一下这个东西,挺好的”,我的西班牙助教也是前几天问我有没有看过这个图,是他一个西班牙朋友引荐给他的。我就告知他们是咱们做的。 南都:登上《柳叶刀》是怎样的一个进程? 董:其间有个小故事。咱们之前有一篇关于麻疹的文章,其时处于向《柳叶刀》投稿进程中。但这时新冠肺炎迸发了,简直《柳叶刀》一切修改都在忙新冠肺炎的文章。咱们老板(注:导师)就比较着急,发邮件问《柳叶刀》主编关于麻疹文章的发展怎样。主编回应说他们忙于新冠肺炎文章,但天天都在看咱们的地图。所以,咱们老板觉得必须有一篇文章向咱们介绍,做疫情可视化地图的通过,让咱们了解咱们的数据来历和处理进程,对咱们有决心。 南都:还有其他疫情可视化的东西让你们形象深入的吗? 董、杜:国内可视化做的比较好,比方丁香园。他们也方便了学生、学者的研讨。咱们的新冠肺炎可视化是在我国以外比较早的一家,所以反而是其他国家、组织学习到了咱们的可视化效果。 南都:接下去还有什么效果发布? 杜:咱们现在还在研讨新冠肺炎的疾病模型,想研讨疾病是怎样迸发的、增长速度怎样、真实开端的日期等。 董:其实,疫情可视化地图仅仅咱们研讨进程的一个辅助东西,没想到引起这么大重视。这导致咱们的工作重点也倾向可视化,但其实咱们想做更多的流行病学剖析。 采写:南都记者 陈志芳

Written by

admin

发表评论

电子邮件地址不会被公开。 必填项已用*标注