第八届中国智能产业高峰论坛 11 月 18 日在成都完美收官,论坛今年重点关注人工智能前沿技术与知识分享。会上,国双技术总监饶峰云介绍了国双在司法领域,依靠大数据及人工智能的技术沉淀,借力行业专家搭建司法领域知识图谱及事理图谱的技术路径。国双在论坛中所分享的发挥认知及感知混和的产业人工智能,有效提升司法工作者的工作效能的案例,获得与会专家的热烈回响。
中国智能产业高峰论坛由中国人工智能学会主办,积极响应习总书记的讲话:“我国经济已经由高速增长阶段转向高质量发展阶段,迫切需要新一代人工智能等重大创新添薪续力”,探讨了“创新推动发展、智能添薪续力”的主题。本次论坛汇聚了人工智能著名学者、顶级专家和业界精英,围绕人工智能技术创新、行业应用和社会资本运作等多个方向,交流智能产业发展战略问题。
国双参加的“知识智能专题”分论坛,探讨的正是知识工程领域研究核心:如何在大数据的环境下,使数据产生智慧,完成从数据到信息再到知识,最终到智能应用的转变。清华大学李涓子教授担任此分论坛的主席,清华大学刘知远教授担任主持人。
演讲摘录
国双司法大数据事业部成立初期,针对各种司法数据、行业支持知识,积累了包括文书解析、知识图谱、信息检索等等应用服务能力,以文本解析为例,我们处理超过 5000 万的裁判文书,解析出 4700 多个司法专业维度和要素,建立了 20 多万个经审核的问答对体系,聚合并审核了超过 3000 个争议焦点、裁判规则等。裁判文书外,我们还对起诉状、上诉状、答辩状、庭审笔录,等等其他类型文书做信息抽取,做结构化,做解析。
面对几百种文书,同时解析几千个维度,这需要一个很庞大的工程能力、大数据处理的能力。具体到算法层面:
(1)文书分段。这个分段和我们语文的分段不太一样,它是一个法律意义上的分段,比如我要知道这一段是讲诉请段、证据段、裁判结果段等,这是所有的基础。这块我们用的是深度学习的分类算法来做,准确率还是非常高的。
(2)命名实体识别。一个文书中涉及到很多人名、地名、机构名等等。
(3)业务规则和要素体系这些业务规则和要素体系里面的法律逻辑都是我们业务专家提取出来的。
要素特征的抽取在语义层面会更抽象一层,也更难做一些。要素来源于法律法规和规范性的指导文件。要素非常有用,它可以起到桥梁作用,把裁判文书中的争议焦点、裁判规则给关联起来。它有四个划分:诉请要素、抗辩要素、事实要素、裁判要素,等等。以上工作有很大一部分是用监督学习的办法来做的。解决的第一步就是要标注数据,这需要大量的人力。
在建立了知识之后,我们怎么用这个知识?通常我们希望能对对知识做检索、问答。我们首先做了一个类案同判的大数据引擎,让法官能够搜索到类似案件别人是怎么判的。为了建立这个类案同判的大数据引擎,我们做了两件事情:
(1)把几千万的文书全部解析出了很多维度,对各种维度做多维度的剖析,做统计分析;
(2)寻找类案。最关键的检索部分,它其实是去检索类似案件。我们也经历了不同版本的迭代,最开始就是最简单的,用文本相似度来做这件事情,文本相似了那就是类似案件,结果发现这个其实不是那么准;再后来用关键段落,最新版本我们主要是基于要素来做的这个事情,案件的要素相同就是类似案件,相同的要素越多就越类似。
国双还做了一个智能问答的版本,这其实是法信的一个升级版本,也是和人民法院出版社一起做的。这个智能问答有以下几个功能与特点:
(1)用户意图的识别,比如我查法律、查法条、查案例,用户的意图我们是用文本分类的做法来做的;
(2)问题语义解析,这也是比较经典的,比如我们做领域实体识别与槽位填充技术,比如我要问一个问题:北京市离婚案件哪个律师的胜诉率最高?我要把北京市海淀区这个实体识别出来,我要把这个案由离婚识别出来,我要把律师胜诉率识别出来,所以这是一个实体识别和槽位填充的技术;
(3)单轮问答语义检索。我们利用 20 万的单轮的问答对,这都是人工编辑审核过的,这其实就是学术上比较常见的 FAQ 型的问答;
(4)对话管理。我们还做了多轮对话,多轮对话主要是背后建了一个多轮树状的知识库,最主要的一个技术其实就是你要控制它的状态转移图。
针对 20 万单轮问答对,我们目前人工梳理了三大领域的多轮问答的库。目前,我们做了两个版本,一种是针对法院的专业人士版本,另外一种是 To C 的对普通老百姓的版本。
进一步来看国双如何获得法研杯冠军。“定罪量刑”其实是这次法研杯比赛的题目,赛题是你输入一个案件事实的描述,你去预测法条、罪名、刑期,因为有一百多万现成的裁判文书,它是一个有监督学习的问题。我们用的最多的模型是 Recurrent attention network(简称 RamNet),模型结构如下图所示:
RamNet 最早是 EMNLP 2017 的 paper,用于实体情感,我们对它做了一些改进,去掉了其中实体部分,改进了 recurrent attention 的输入输出,我们在多个应用场景中,都发现它能显著战胜 NLP 领域常见的 BiLSTM + attention 网络,我们认为 recurrent attention 能提取更多的 feature,尤其适合类别很多的多类标问题。
这个模型其实是有一个信息拓扑结构的,因为它同时预测罪名、法条、刑期,我们是一个联合学习的模型来做的,同时预测这三个类别,有几种办法:第一种,并行的方法,前面是联合学习的共享层,每一个任务你都用一个全链接去做预测;第二种,串行的方法,第一个全链接去预测罪名,再把这个全链接的特征接着传递到第二个;第三种,用一个图状的,这个就比较复杂了,比如我们先做罪名,罪名会传到法条,又会传到刑期。在我们实际的比赛的模型中,我们用到了第一种和第三种,发现这两种效果会好一些。
我们对模型的 loss 还做了一些优化,传统多类标问题是 logistic loss,考虑到罪名、法条和的类标并不是独立的,相互之间有关联,所以我们尝试了 CRF loss,在我们的实践中,模型效果会有一定提升。
我们还引入了业务的规则,尤其是在刑期预测中这原来是深入学习提取出来的 feature,我们会把基于业务规则提取出来的 feature 和统计特征的 feature 一起再做一个分类,这样在我们的实验中的效果有很大的提升。
前面介绍的是我们在这次法研杯比赛中拿第一名用到的模型,基本上都是端到端的深度学习模型。我们后期应用正在优化,将文本解析、要素体系与模型结合,进一步深化应用能力。
我们还开发了文书生成系统提升法官写文书的效率。我们的做法是给法官提供两种选择:第一种是直接找类案,通过前面类案的做法,找到类案之后,法官直接从类似案件中选模板,把模板套进来,再把解析的东西填到模板中,这是一个做法;第二种是应用知识图谱的推理。我们为文书生成构建的一个案件知识图谱,PPT 中黄色的部分都是我们定义的类,针对每一个案件类型,其实我们会去定义争议焦点、裁判规则、法律法规、诉辩称、诉讼请求项,这样就会把它关联起来。法官在审判案件的过程中,会去找类案来参酌,但是类案的案件非常多,法官选哪个类案?我们会根据要素,去给法官推荐最相似的争议焦点,争议焦点的数量相对是少的,我们根据统计做争议焦点的排序,把最相关、最可能的争议焦点放在前面。法官选完争议焦点之后,争议焦点和裁判规则是有对应关系的,裁判规则和法律法规又有对应关系。所以,我们先有一个推荐,推荐完了他选择之后,需要的文书就可以生成出来。
总结国双的知识智能在司法领域的经验,我们认为,司法领域有大量高质量的语料和知识;司法领域有丰富的 NLP 技术应用,包括信息抽取、信息检索、知识图谱、问答等等。司法领域有丰富的智能应用场景,具有巨大的社会价值。我们希望有更多的学术界人士加入我们,一同探索相关领域。
本文转载自公众号国双 Gridsum(ID:gridsumtech)。
原文链接:
https://mp.weixin.qq.com/s/UDxqcYHCTQTQT_ADaX-iog
评论