抖音技术能力大揭密!钜惠大礼、深度体验,尽在火山引擎增长沙龙,就等你来! 立即报名>> 了解详情
写点什么

14 天,几十个志愿者:开源疫情防护语料库“疫战 2020”发布

2020 年 2 月 14 日

14天,几十个志愿者:开源疫情防护语料库“疫战 2020”发布

春节至今,疫情实时牵动着所有人的神经。除了奋战在一线的医护人员,越来越多的科技公司和技术人员希望尽自己的一份力,通过技术手段为社会提供可能的帮助。作为一家技术媒体,InfoQ 记录着每一个为之努力的技术人和背后的故事。



头图寄语:翻过这座山,就是光明


疫战 2020 项目正式发布

“我们看到有很多文章在传播错误的防护知识,我们看到权威机构发布的疫情防护手册内容需要被更多人使用,我们看到疫情有关的各种工具散落于网络中不能被一站式获取,我们看到很多人因为疫情陷入焦虑中,我们看到国务院针对疫情热点问题的权威回应需要方便获得… ”


为了帮助大家在浩如烟海的信息中快速找到相关问题的靠谱答案,2 月 1 日,用友白清杰发起了一个关于新型冠状病毒疫情防护的开源语料库“疫战 2020”,该项目很好地弥补了目前底层基础语料的缺口。



疫战 2020 疫情防护语料库是由用友员工白清杰发起的个人公益项目。语料由志愿者根据国家权威机构发布的资料共同编辑整理完成。整个团队从 2 月 3 号开始整理,到 7 号已初具规模。8 号、9 号进行集中突击,整理了大量语料。


2 月 11 号,语料建设的第一阶段已经接近完工。之后,大量志愿者对答案进行检查核对,更新过时的答案,规范答案的格式,抓取了百度知道的 5000 多个疫情相关问题做测试。志愿者将来自百度知道的 2200 多个问题通过人肉分拣,更新到了语料中。


针对疫情实时数据,整个团队将 69 种咨询方式和 369 个区域,按照排列组合方式,将生成的超过 25000 多个问题,加入到了语料中,甚至还精心挑选了一些和疫情防护有关的短句,附在每一条答案的后面,帮助更多人了解如何做好安全防护。


项目地址:https://gitee.com/yizhan2020/yizhan2020


语料来源

因为是做疫情相关的语料库,对用户的生命健康有重大影响,所以,团队对语料来源进行了精心甄选。


据介绍,语料库的语料来源于国家权威机构发布的资料,如国务院的中国政府网发布的权威回应、中国疾病预防控制中心发布的《新型冠状病毒感染的肺炎公众防护指南》、中国医学科学院北京协和医学院的相关专家编写的《协和新型冠状病毒肺炎防护手册》、人民日报的相关问答等。


此外,平台提供了国家及各个公司发布的疫情相关的工具链接,这些工具包括国务院疫情督查、征集肺炎求助者、密切接触者测量仪、疫情实时地图、心理援助电话、防疫物资供求等。


目前,语料来源于如下平台:


  • 国务院的中国政府网发布的权威回应、

  • 中国疾病预防控制中心发布的《新型冠状病毒感染的肺炎公众防护指南》

  • 中国医学科学院北京协和医学院的相关专家编写的《协和新型冠状病毒肺炎防护手册》

  • 人民日报的相关问答

  • 腾讯较真

  • 蒲公英医学


一条语料由基本问题、相似问题和答案组成。一个基本问题对应多个相似问题。答案的格式规范:


答案正文

来源:机构名称+文件名称

参考连接: http://url

祝福语

免责声明: http://t.cn/A6h72EGW


常用祝福语:


提醒:棉纱口罩、海绵口罩、活性炭口罩无防护作用,请使用医用口罩


提醒:医用口罩够用,N95 口罩请留给医务人员


提醒:不出门、不聚集,安全第一


提醒:不隐瞒,早发现,早治疗,早健康


提醒:勤洗手、戴口罩、不聚集、少出门、频消毒、慎揉眼、多通风


岂曰无衣、与子同袍、王于兴师,修我戈矛


众志成城,万众一心,武汉加油,中国加油


在哪里尝试?

目前,疫战 2020 公益小组已经联合用友、爱因互动、微信开放平台、开源社、句子互动等多家企业及社会组织,共同向社会发布疫情防护智能问答服务。


用友旗下协同平台友空间内置智能机器人“小友”,搭载了疫情防护问答服务。用友人工智能团队基于该语料库发布了疫情智能问答 API,该 API 发布在了用友 APILink 开放平台上,API 免费向社会开放。


据爱因互动 CTO & TGO 鲲鹏会会员洪强宁介绍,爱因互动作为第一家向项目提供对话机器人技术支持的公司,派出了产品经理和工程师给予支持,使用志愿者建设的语料,训练智能问答机器人模型,向公众免费提供疫情知识问答机器人服务。微信公众号作者可以利用爱因互动提供的微信公众号集成服务在自己的公众号中向订阅者提供疫情问答服务,第三方开发者也可以利用爱因互动提供的 API 服务为自己的应用增加疫情问答功能。


微信对话开放平台为疫情助手机器人提供了强大的自然语言处理的技术支持。同时,利用微信对话开放平台的开放能力,将疫情助手机器人相关的技能开放到了平台内技能商店中,可供所有开发者免费使用。


开源社基于该语料库发布疫情智能问答服务,目前已在开源社微信公众号后台提供服务,开通了和开源社疫情微信聊天机器人服务。句子互动为微信聊天机器人提供接入服务和技术支持,后台的智能对话平台,由微软(亚洲)互联网工程院的商业人工智能团队提供技术支持以及 Azure 云资源。


句子互动是一家基于微信生态,为企业提供营销销售自动化和社群管理工具的公司。配合微信对话开放平台,快速创建了疫情小助手,用户添加疫情小助手为好友后,私聊直接提问或添加进入任意群并 @小助手,小助手便可回答关于疫情相关的问题。同时,句子互动也将功能集成到管理系统中,方便企业快速集成,为公众提供疫情知识问答服务。


尚在完善,共克时艰

语料库的整理工作是非常枯燥乏味和艰辛的。这些志愿者们凭着一腔热情,用业余时间对语料进行丰富完善。据了解,志愿者有来自北师大、北航、北邮、浙大、重大、武汉理工等高校的学生和老师,有来自上海计算所、共致开源等组织的热心人士。志愿者在很短的时间自发自愿的聚集在一起,借助网络的力量分工协作,通过众包方式完成语料库的整理。百科名医的 CTO 赵鑫磊先生提供了大量技术支持。


这是临时拼凑起来的一个志愿者团队,起初只有两三个人,后来变成十几个、几十个。大家都没有语料整理经验,爱因互动提供了语料建设规范,对志愿者进行了培训,帮助志愿者构建对智能问答服务友好的知识库。


在与 InfoQ 对话的过程中,白清杰表示,非常感谢所有为该项目付出的志愿者和团队,该项目秉承开源开放的原则,希望社会各界都可以基于该语料库,发布疫情智能问答服务和 API。接下来,团队将会根据日常权威回应对项目进行实时更新,计划在文本的基础上增加视频链接,根据用户使用情况调整和丰富语料库,欢迎感兴趣的开发者加入。


目前,团队在语料的版本管理方面存在问题,不知道业内是不是有相关工具可以使用或者提供,也希望有意者可与该团队取得联系(项目地址页面下方附有群二维码)。


项目地址:https://gitee.com/yizhan2020/yizhan2020


2020 年 2 月 14 日 13:182677
用户头像
赵钰莹 InfoQ高级编辑

发布了 724 篇内容, 共 426.7 次阅读, 收获喜欢 2325 次。

关注

评论

发布
暂无评论
发现更多内容

mongodb 源码实现系列 - 网络传输层模块实现四

杨亚洲(专注mongodb及高性能中间件)

MySQL 数据库 mongodb 高性能 分布式数据库mongodb

LAXCUS 大数据集群操作系统:一个分布式分时共享 E 级系统软件(七)

陈泽云

人工智能 大数据 算法

利用下班时间,我两星期完成了redis入门与进阶

小松漫步

数据库 redis

三千字轻松入门TensorFlow 2

计算机与AI

tensorflow 学习

极客大学 - 架构师训练营 第八周

9527

[Pulsar 社区周报] 2020-10-31 ~ 2020-11-06

Apache Pulsar

大数据 开源

Pulsar Summit Asia 2020 | 场景案例论坛(上):多行业,多场景

Apache Pulsar

大数据 开源 Apache Pulsar

Oracle、NoSQL和NewSQL 数据库技术对比

VoltDB

数据库 大数据 数据分析 物联网

面经手册 · 第17篇《码农会锁,ReentrantLock之AQS原理分析和实践使用》

小傅哥

Java AQS CAS unsafe CLH

秋风到,ModelArts“ AI市场算法Fast-SCNN指南”秋膘贴起来

华为云开发者社区

AI 算法 开发 OBS modelarts

多线程并发主题-ThreadLocalRandom类

Geek_896619

Java 并发编程 线程

【涂鸦物联网足迹】涂鸦云平台接口列表

IoT云工坊

人工智能 接口 物联网 API 智能家居

第六周总结

balsamspear

极客大学架构师训练营

为什么我就面试阿里P6,好不容易过2面,3面来个架构师来吊打我?

小Q

Java 学习 程序员 架构 面试

“双11”购物狂欢节,所有女生走进了谁的直播间?

博睿数据

APM AIOPS 拨测 直播 用户体验

高交会科技盛宴:“科技改变生活,创新驱动发展”

13530558032

C++多元组tuple使用方法?你熟悉吗?快来看看吧

良知犹存

c++

《迅雷链精品课》第三课:区块链主流框架分析

迅雷链

区块链 区块链方案 区块链+ 区块链应用

什么?还不懂c++vector的用法,你凭什么勇气来的!

良知犹存

c++

WE大会上,科学家们是怎样治愈“小破球”的?

脑极体

我就是增发、健身、养猫、社交通通拥有的锦鲤本鲤

脑极体

高交会第一天,高新技术成焦点

13530558032

链表交集问题与DataNode宕机HDFS处理时序

garlic

极客大学架构师训练营

LAXCUS 大数据集群操作系统:一个分布式分时共享 E 级系统软件(六)

陈泽云

人工智能 大数据 算法

甲方日常 49

句子

工作 随笔杂谈 日常

架构师Week4总结

lggl

作业

【Mycat】作为Mycat核心开发者,怎能不来一波Mycat系列文章?

冰河

分布式事务 分布式数据库 系统架构 分布式存储 mycat

Serverless 是一种思想状态

donghui

Serverless

第六周课后练习

balsamspear

极客大学架构师训练营

面试,到底在考察什么?

程序员架构进阶

面试 方法论

mPaaS 客户端问题排查之漫长的 3s 等待之谜

阿里云金融线TAM SRE专家服务团队

mPaaS

Study Go: From Zero to Hero

Study Go: From Zero to Hero

14天,几十个志愿者:开源疫情防护语料库“疫战 2020”发布-InfoQ