全球新冠病毒COVID-19研究数据集正式开放,内含近3万篇论文和所需AI工具

2020 年 3 月 17 日

全球新冠病毒COVID-19研究数据集正式开放,内含近3万篇论文和所需AI工具

如今,这场疫情早已开始在全球范围内传播,全球数十家实验室陆续关闭,这对冠状病毒的研究工作进展十分不利。与此同时,全球众多国家和地区联合签名要求共享 COVID-19 研究数据集以及相关论文,并建议发布者同时提供 AI 软件和其他计算机系统可以直接使用的数据格式,以加速研究过程。


全球 COVID-19 研究数据集正式开放


近日,科技界、学术界正式宣布了一个公开数据集 CORD-19,内含截至 3 月 13 日的所有新型冠状病毒的论文,并包含针对文本进行优化的文本处理工具包 SciSpacy、在科学文本上进行预训练的 BERT 模型 SciBERT、开放研究语料库和 API 等,汇集了有关 SARS-CoV-2 病毒内容在内的共计近 3 万篇文献。



根据相关人员介绍,新的数据集是机器可读的,可以轻松进行解析以用于机器学习目的。为了让研究人员可以快速梳理清楚数据,美国国家科学、工程和医学研究院与世界卫生组织合作,提出了与冠状病毒有关的“高优先级”问题,这些问题与遗传、治疗、症状和预防等相关。


此前,全球已有包含美国、意大利、韩国、英国等在内的 11 个国家和地区要求相关机构开放这些数据集,以供研究。这里的相关机构包括 PubMed Central(美国国立卫生研究院提供的一项服务, 存档生物医学, 生命科学科研文献)和世界卫生组织的 Covid 数据库。在呼吁开放数据集的公开信中写道:


希望发布者可以提供相关的 AI 软件和计算机系统可以直接读取和使用的数据格式,而不是一个简单的 PDF 文档。


除了用于研究,相关机构也需要对内容进行筛选。此前,很多研究人员已经发布了不少与疫情相关的研究成果,但由于时间问题,不少论文都属于“预印本”状态,未经同行评审,可能存在一些问题,需要审查。《新英格兰医学杂志 (NEJM)》执行主编 Edward Campion 就曾表示:


我们每天收到多达 20 份关于冠状病毒的报告,坦率地说, 其中一些并不是高质量的文章。我们的部分责任是选择我们认为对临床受众和公共卫生受众最重要的内容。


值得注意的是,Kaggle 还围绕此主持了一场 COVID-19 开放研究数据集挑战赛,旨在激发开发人员使用 CORD-19 来寻找有关本次疫情如此大规模流行的新见解,包括该病毒的历史、传播和诊断,人畜接触的管理措施,先前流行病学研究的经验教训等。Kaggle 为获奖者提供了每项任务 1000 美元的奖励,其他奖品和详细信息参照挑战赛官网说明。


COVID-19 开放研究数据集地址:


https://pages.semanticscholar.org/coronavirus-research


疫情致许多实验室关闭,开放可提高生产力


因新冠病毒疫情影响,哈佛最近在陆续关闭实验室或大规模缩减实验室成员,这样的事情同样发生在其他实验室,这导致疫情相关的很多研究开展受阻,业界需要开放数据集进一步提高生产力。


通常,实验室是根据当地爆发的程度来决定运营方式,但目前全球疫情爆发严重,有些实验室陆续关闭,有些不鼓励继续研究,开放的一些机构虽然允许人员进入实验室,但也在控制人数,最大程度避免聚集在建筑物中的人数。爱荷华大学长期致力于冠状病毒研究的研究员 Stanley Perlman 表示:


已经不再允许学生在实验室里工作,而且研究生有一定的限制。这样一来,可以同时限制人数,并减少有人传播 SARS-CoV-2 病毒的机会。


这也在一定程度上影响了疫情的相关研究,研究人员表示,公共卫生和实验室成员的安全至高无上,但他们仍然担心离开实验室数周或数月将意味着必须重新启动某些项目或放弃实验,浪费时间和资源。约翰霍普金斯大学彭博公共卫生学院分子微生物学和免疫学教授 Arturo Casadevall 表示:到目前为止,我们保持开放状态,但情况非常不稳定。据了解,他正在研究针对 Covid-19 的治疗方法。


中国科学家贡献了大量研究和数据


早在一月份,在疫情被宣布为国际公共卫生紧急事件前,中国科学家就快速分享了 SARS-CoV-2 病毒首个基因组信息。去年 12 月底,武汉首次报告了新型冠状病毒肺炎。1 月 8 日,中国科学家完成了病毒基因组测序,并将其公开,以便让全世界的科学家投入到对抗 SARS-CoV-2 的战役中。


今年 1 月 31 日,也就是新型冠状病毒成为全球关注的突发公共卫生事件的第二天,94 家学术期刊、学会、研究机构和公司就曾签署了一项协议, 承诺至少在疫情爆发期间免费提供有关该疾病的研究和数据。


签署了这项协议的《公共科学图书馆(PLOS)》一直是开放获取,他们向作者而不是读者收取费用。PLOS 的主编 Joerg Heber 表示:


公共科学图书馆已做好应对任何疫情的准备。除了开放获取外,该期刊还要求复制研究所需的所有数据与之一起发表。尽管如此,同行评议研究仍然需要时间,因此 PLOS 强烈鼓励所有提交与冠状病毒相关论文的研究人员将这些论文作为预印本发表,以便尽快获得。


如今,汇集了所有研究成果的数据集正式开放,这不仅可以加速疫情的研究过程,同样可以对相关传染病的研究提供经验。如果开发者感兴趣,可以访问 COVID-19 数据集的官网进行下载,同意相关许可即可。


相关链接:


COVID-19 开放研究数据集地址:


https://pages.semanticscholar.org/coronavirus-research


COVID-19 开放研究数据集挑战赛地址:


https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge


2020 年 3 月 17 日 14:123407
用户头像
赵钰莹 InfoQ高级编辑

发布了 648 篇内容, 共 383.7 次阅读, 收获喜欢 2082 次。

关注

评论

发布
暂无评论
发现更多内容

看清远处模糊的事,不如做好身边清楚的事

Neco.W

创业心态 未知

免费下载 | 阿里云实时计算整体解决方案白皮书重磅发布!

Apache Flink

大数据 flink 流计算 实时计算 大数据处理

依赖倒置架构

AIK

课程总结

AIK

小师妹学JVM之:JDK14中JVM的性能优化

程序那些事

JVM 「Java 25周年」 小师妹 JIT JDK14

【Week02】框架设计

Aldaron

当你启动Redis的时候,Redis做了什么

老胡爱分享

redis 源码分析 面试题

【大厂面试06期】谈一谈你对Redis持久化的理解?

NotFound9

数据库 redis 后端

数仓系列 | 深入解读 Flink 资源管理机制

Apache Flink

大数据 flink 流计算 实时计算

从字符串到常量池,一文看懂String类设计

程序员DMZ

JVM 常量池 intern

设计模式的主要原则

极客大学架构师训练营 框架设计、设计原则、设计模式 第四课 听课总结

John(易筋)

极客时间 极客大学 极客大学架构师训练营 设计原则 框架设计

第二周总结

晨光

《实现领域驱动设计》拆书稿 DDD入门 & 领域、子域和限界上下文

三界

架构 领域驱动设计 DDD

架构师训练营第二章 总结

尔东雨田

使用WebMaker快速预览Ionic页面效果

davidce

Ionic WebMaker 混合应用开发

面向开发者的 WSL2 安装指南

simpleapples

Python golang Windows 10 wsl

如何构建低延时的直播体验,让互动更实时?

巨侠说

CDN 短视频 直播 视频

第二周作业

晨光

架构师训练营 0 期第二周

Blink

红警1游戏开源,代码非常规范。网友:秀色可餐

程序员生活志

游戏开源 红警1

Apache Flink 误用之痛

Apache Flink

大数据 flink 流计算 实时计算 数据处理

第二周-作业

JI

极客大学架构师训练营

编程这件事

dapaul

Flink作业问题分析和调优实践

Apache Flink

大数据 flink 流计算 实时计算 大数据处理

第二周总结

qqq

极客大学架构师训练营

20年行业变革与技术演进,当下CDN如何为政企数字化转型加速?

巨侠说

CDN 边缘计算 移动视频

28岁程序员期权过亿,彪悍从字节退休,网友:酸了酸了!

程序员生活志

程序员 字节跳动 开发 退休

第二周-总结

JI

极客大学架构师训练营

第二周 作业

尔东雨田

第二周作业

Aldaron

全球新冠病毒COVID-19研究数据集正式开放,内含近3万篇论文和所需AI工具-InfoQ