人工智能已成为各行各业不可或缺的一部分,包括司法行业。围绕司法管理的热点难点,促进人工智能技术的应用,推进社会治理智能化,是国家《新一代人工智能发展规划》中提出的一项重点任务。
清华大学计算机系信息检索课题组近年来在国家重点研发项目“智能司法公开关键技术研究”的支持下,在司法公开场景中的敏感信息保护、利用效率提升等方面开展了系列工作。10 月 18 日,《InfoQ 大咖说》与中国计算机学会(CCF)联合推出的高端访谈栏目《技术风云 | 对话 CNCC》有幸邀请到了该项目负责人清华大学教授刘奕群老师,来跟我们聊聊“司法人工智能”的发展和应用。
以下内容节选自当天的分享,InfoQ 做了不改变原意的编辑:
InfoQ:首先请您跟大家做一下自我介绍,包括您的职业经历、您一直以来研究哪些领域等等。
刘奕群:我来自清华大学计算机系,1999 年进入清华大学就读本科,2001 年开始接触信息检索跟人工智能相关的一些研究工作。2003 年本科毕业之后,留下来接着读博士学位。2007 年获得博士学位就留校任教到现在,所以相当于没有离开过清华的校门。
从研究经历上来讲,差不多在 2001 年左右,我在马少平教授的带领下开始接触信息检索领域。2006 年左右国家有一系列的搜索引擎系统上线,然后我们跟其中的很多公司包括搜狗、百度等等合作开展互联网搜索相关研究。
2018 年左右,我们开始尝试把研究工作跟司法场景结合起来,特别是自然语言处理、信息检索等技术应用于司法场景,想做一些更好地为社会服务的事情。在信息检索领域我们还是积累了一定的研究经验,在全球计算机科学专业排名 CSrankings 上,近十年我们基本上都是排第一名。而且我们课题组,包括马少平老师、张敏、我自己,在国际上最知名的一些信息检索研究学术会议(SIGIR/WSDM/TOIS/FnTIR)和国际期刊上,我们都担任过主编或者程序委员会主席、大会主席这样的一些职务,总的来说,我们在这方面的研究工作还是在国际上得到了一定的认可。
InfoQ:请刘老师您给大家简单介绍下将人工智能引入司法领域的相关背景信息,我们该怎么去理解“司法人工智能”的含义?
刘奕群::“司法人工智能”可以说是最近几年被“生造”出来的一个词,简单来讲是用人工智能去解决司法面临的一些问题。但在实际操作的过程中,或者说在社会公众的眼里,还是对此存在一些理解误区。比如常见的误解是,智能化就是信息化的一个升级,因此司法人工智能就是司法信息化的下一个阶段,这样的理解是不够准确的。还有比如说用机器人替代法官,让机器人给我们判案,这显然都是一些不那么正确的理解。
就我个人的理解来说,我觉得司法跟人工智能是有非常密切的关联,体现在两方面:司法对于人工智能的迫切需求,以及司法对于人工智能的反哺作用。也就是说,作为交叉领域,它们一定是互惠互利的,而不是单向输出的关系。
大概 2019 年的时候,最高人民法院院长周强院长来清华分享过一个报告,那个报告我印象还非常深刻:一开始周院长先给法院做一个定义,他说,“法院是专门负责解决纠纷的国家审判机关,司法解决纠纷的过程,本质上讲就是寻找事实、寻找法律的过程。”
当时我想到,寻找事实跟寻找法律这两个过程,说到底都是我们这些研究人工智能、特别是做信息检索的人一直在尝试做的事情。
寻找事实的过程,可以认为是将现实世界向虚拟空间投射的过程,核心是将现实世界中纷繁复杂的社会现象转变成为虚拟的信息空间中的逻辑元素,可以认为是将物质世界信息化的特殊形式。而寻找法律的过程,则是将事实依据匹配法律准绳的过程。这一过程既包括了根据事实检索相应的法规法条,确保有法必依、违法必究的含义;也包含了根据不断变化的客观事实归纳总结立法过程中可能存在的缺失与不足,建立更新法条、确保有法可依的含义。
以计算思维的观点,这两个过程中包含了建立计算模型、收集计算数据、设计计算算法的步骤,是可以由知识工程、信息检索、数据挖掘等计算机科学与人工智能的研究领域极大推进的。这反映了司法对于人工智能的迫切需求。
交叉学科一直是高等学校学科建设的重要战略举措,但是在实际工作推进中,往往存在“剃头挑子一头热”的现象,究其根本是存在“交叉”的不同学科之间往往仅强调一方的“输血”而忽视了双方的“互利”。对于司法人工智能的研究与实践而言,司法领域不仅需要计算机学科和人工智能技术领域的支持与配合,更需要注意从源头上避免单向简单应用信息技术成果、而忽视智慧司法研究客观上存在对计算机领域进行“反哺”的重大潜在优势的现象。
也就是说,不能只考虑计算机怎么为法律服务,必须得是互惠互利的关系,也必须谈司法怎么对人工智能发挥作用。我跟很多相关的老师也沟通过这个问题,司法是人工智能非常好的一个应用的场景,我们管它叫人工智能的一个应许之地,意思是人工智能应用于司法领域是非常合适的。
这种反哺作用可以从两个方面来认识,从司法人工智能的服务对象上看,司法系统的用户呈现知识水平、专业程度高度异质化的特点,针对不同背景的用户进行认知过程的数据收集与建模,本身可以协助我们建立更加完善的司法知识体系,甚至指导构建从常识到专业知识、从通用化到专用化的认知模型与机器学习模型。
其次,从司法人工智能的数据对象上看,与其他垂直领域的数据相比,司法数据呈现相对结构化、逻辑组织较为严密的特点,当前,提高人工智能特别是机器学习算法的鲁棒性、可解释性成为第三代人工智能的前沿研究课题,而垂直领域知识图谱构建和因果逻辑推断等技术则成为支撑鲁棒、可解释人工智能的核心技术路线。司法领域数据具备的这些特点,使之成为人工智能技术探索性研究中适宜的应用场景,成为推动人工智能技术取得突破性进展的“应许之地”。
InfoQ:刚刚您阐述了人工智能应用于司法的逻辑,请问司法人工智能的技术研究方向主要有哪些?
刘奕群:不同的学者可能会有不同的分类方式,我基本上把它分成四个比较主要的研究方向。
(1)建立司法领域智能推理的计算模型,包括:立法推理、预测判决结果、法律论证模型;与人工智能领域的逻辑推理、因果推断等方面研究关系紧密。
(2)建立司法内容智能解析的计算方法:法律本体表示、法律文本的信息提取、法律案例的表示学习、司法预训练语言模型的构建等;与人工智能领域的自然语言处理研究关系紧密。
(3)建立模拟人类进行法律认知过程的计算模型:法律类案检索、法律条目检索、法律阅读理解、法律内容推荐等;与人工智能领域的智能信息处理研究关系紧密。
(4)建立人工智能本身的法律规范:探讨人工智能技术本身应用的边界,与人工智能伦理等方面的研究关系紧密。
InfoQ:可否再进一步介绍下,纵观国内外,人工智能在司法领域的发展现状如何?人工智能在我国法院系统的应用主要体现在哪些方面?
刘奕群:从全球范围内来看,人工智能在司法领域的应用呈现高度不均衡的特点,不同国家,乃至一个国家内不同的行政区划应用的程度均有很大差异。这种不均衡主要是由两方面的原因造成的:第一,人工智能对于司法的应用高度依赖于司法信息化的顺利完成,没有信息化就没有智能化,巧妇难为无米之炊。另一方面,不同国家司法机关和司法从业人员群体对于技术的接受程度和理解程度也有很大差异,“汝之蜜糖,彼之砒霜”。
我国法院系统对于人工智能技术的应用应当说在全球范围内处于比较领先的地位,一方面是由于党和政府对于司法信息化给予了高度的重视,2017 年,周强院长就指出“司法改革和信息化是推动人民法院工作发展的车之两轮、鸟之双翼”。可以说,中国法院一直以来积极主动拥抱现代科技,大力加强智慧法院建设,并通过应用人工智能技术努力让人民群众在每一个司法案件中感受到公平正义。
今年 6 月 17 日,最高人民法院发布了《人民法院在线诉讼规则》,可以认为是人工智能应用与司法领域成果的集大成者。
努力满足人民群众日益增长的多元司法需求是新时期人民法院工作的出发点和落脚点,而如何利用有限的司法资源让人民群众在每一个案件中感受到公平正义,就必须进行资源的优化配置。而在线诉讼是这一理念的直接产物。在线诉讼系统是一个复杂的信息物理系统(Cyber Physical System),而这个系统中最主要的资源瓶颈是法官的认知与判断能力,在在线诉讼的过程中,各类图像、语音识别技术,信息检索与推荐技术,文本聚类分类技术等综合应用,充分利用了系统在信息处理、流程管理、通讯交互等方面的功能,以人机协作的形式开展诉讼过程,最大程度的减少法官的非必要劳动,充分发挥法官的认知与判断能力。大家如果尝试过包括移动微法院、互联网法院等的诉讼过程,可能也能体会到这套技术体系的优势。
InfoQ:在未来,AI 机器人有可能取代法官完成判决书的撰写之类的工作吗?
刘奕群:这个过程中,我一直强调的一个概念就是,或者说我跟很多法院同事在聊的时候,我一直在跟他们讲的是“我们是辅助你去完成任务,我们绝对不是要替代完成你的任务”。
在信息化的基础上,当前的自然语言处理技术等人工智能技术在辅助智能审判方面发挥着很重要的作用。在协助法官生成制式文书,对诉讼材料的案件事实进行自动归纳、抽取和摘要生成,为法官撰写裁判文书的事实部分提供参考等场景得到很好应用。据我了解,当前全国有 3000 余家各级法院使用了裁判文书自动纠错、裁判文书上网前敏感信息自动屏蔽、法律文书主要内容自动生成等审判辅助系统。
同时,我们也应当认识到科学技术在司法中的应用需要尊重司法规律。您问题中提到的完成判决书的撰写,实际上蕴含了非常复杂的司法裁判过程,可以说判决书并不是撰写出来的,而是法官经过复杂的审理、心证、裁判过程的结果。仅从技术的角度看,要实现人工智能技术完全替代法官裁判,需要突破智能化瓶颈,还有很长的路要走,最终是不是真正能够实现,我心里也画有一个问号。
InfoQ:我们现在比较常听到互联网法院、智慧法院之类的说法,但智慧法院的发展似乎还主要集中在“互联网化”、“信息化”和“无纸化”,请问当前在智慧法院的建设中,AI 主要在哪些环节起作用?
刘奕群:互联网法院和智慧法院是两个概念,互联网法院是一种特殊的法院类型,咱们国家有三个互联网法院,分别在北京、广州跟杭州。智慧法院则是国家在进行司法系统建设方面的一个目标,而几家互联网法院都是这方面很具有示范性的建设主体。
信息化和智能化既存在本质差异也具有紧密的联系,这种联系在司法应用的语境中主要表现为:司法信息化孕育了司法智能化,司法信息化需要进化为司法智能化。
从发展阶段讲,司法智能化是司法信息化发展到一定成熟阶段的产物,智能化建设不能脱离或跨越信息化出现;从发展逻辑讲,司法智能化是建立在信息化基础设施之上的应用延伸,如果没有前期信息化的丰富积淀,智能化就无从谈起。
司法信息化向司法智能化进化源自于深度挖掘司法大数据内在价值的客观需求,源自于努力实现“让人民群众在每一个司法案件中都感受到公平正义”的司法目的,源自于全面推进审判体系和审判能力现代化改革目标的共同驱动。
人工智能研究具有高度的不确定性,需要产学研用各方面的密切合作,而信息化本身具有相对的确定性特征,主要依赖于应用需求方和工程建设方的紧密协同,这两者的建设逻辑存在本质差别。
在当前的理论研究和应用建设中,有部分观点简单地认为智能化是信息化的另一个“时髦”说法,或片面地认为按照传统的信息化建设思路再融入一些所谓智能模块,智能化就能自然实现。这些认识误区对于全面深化智慧司法建设有害无利。
InfoQ:下面我们想了解一下老师您负责的国家重点研发项目“智能司法公开关键技术研究”,请问该课题主要解决什么问题,组内的研究工作主要聚焦在哪些方面?
刘奕群:从 2018 年开始我们去做司法相关的研究,一个很重要的切入点就是“司法公开”。司法公开是推进司法公正、保证司法廉洁、提升司法水平的重要手段。
我国的人民法院系统近年来坚持以公开为原则、不公开为例外,开通审判流程、庭审活动、裁判文书、执行信息四大公开平台,应当说提供了全球范围内规模最大的司法公开数据资源。但是拥有数据和利用好数据是两个不同的概念,如何让社会更好的利用这个数据资源实现司法公平正义的目标,如何让人民群众更加理解和信赖我们的司法系统,这个是我们项目的宏观目标。
具体来讲,项目设置了司法公开敏感信息保护、司法公开信息有效利用、司法公开效益评估三个方面六个课题,最终希望我们的司法公开系统拥有风险监测与控制能力、复杂上下文感知能力、社会媒体大数据理解能力。
项目团队包括了清华大学、国防科技大学、北京理工大学、中国政法大学等学术研究单位,目前项目正在包括北京市、河北省等地的多家法院进行应用示范,现在反馈的应用效果还是非常不错的。
InfoQ:我们了解到,您将在月底举办的2021中国计算机大会上带来题为《面向司法公开的智能信息获取技术》的分享,能否提前剧透一下,您到时将带来哪些内容的分享,是否与“智能司法公开关键技术研究”这个项目有关?
刘奕群:感谢关注,我将围绕智能司法公开面临的三方面技术挑战介绍我们项目团队开展的一系列相关工作。这三个挑战是:缺结构、缺知识、缺反馈。具体而言,缺结构是指缺乏对数据内部结构和外部关系的理解,缺少高质量结构化数据标记;缺知识指的是司法公开系统缺乏对于司法本体、司法理论体系、司法政策理念、司法实务经验的认识;缺反馈是指缺乏准确的性能评价方法,难以形成改进的闭环。
至于具体的应对这三方面挑战的举措,我想还是等两周之后的报告上再跟大家详细汇报吧。
InfoQ:在您看来,司法信息获取技术体系建设的关键是什么?
刘奕群:在我看来,审判流程、庭审活动、裁判文书、执行信息四大公开平台的建立,已经完成了司法信息获取的第一个重要任务,即司法活动本身的信息化,接下来我们还有两个重要的任务要完成:
首先是确定什么信息可以被公开,什么不适宜公开。周强院长曾经明确指出,司法公开以公开为原则、不公开为例外,但是一旦不该公开的公开了,可能会对整个司法公开的运行形成极大的影响。如何在保证人民群众知情权的同时避免敏感信息的泄露,这种风险感知的能力是司法公开应用中一个非常关键的任务,也是我们在开始做这个司法公开的项目时关注比较少的。
其次是如何把确定可以公开的信息公开好,在信息爆炸的时代,我们的注意力是稀缺资源,太多的数据等于没有数据。如何理解高度异质化的用户在特定上下文背景下的信息需求,是司法信息获取中的另一个重要任务。这个任务其实一点也不简单,并不是现成的用户理解方法在司法场景的简单应用,而是要对司法本身的知识体系做深层次的理解和挖掘。我自己办公桌上除了计算机专业书籍之外,也有法学专业的理论和实务书籍,类案检索的算法设计有琢磨不清楚的时候,看看这些书,尝试从司法从业人员的角度思考一下问题,往往能得到新的研究思路。
为了完成这些任务,我自己有一个很深的体会,就是我们必须敢于模式创新,及时转变传统的以项目方式驱动的信息化建设模式。进一步尝试构建体制改革与信息化建设任务深度融合、法学领域与计算机科学领域相向而行,人民法院、高等院校、学术科研机构、科技企业与用户高度协同的“政产学研用一体化”建设新模式。这方面,在最高法的大力支持下,我们也在努力做一些尝试。
InfoQ:总的来看,您认为人工智能应用于司法的界限在哪里?
刘奕群:司法是维护社会公平正义的最后一道防线。人工智能在司法场景的应用需要同时兼顾效率价值和公正价值。
我认为人工智能应用于司法,首要的元素是尊重法官的主体地位,其次是通过大数据、人工智能技术等的应用,推进审判体系和审判能力现代化,更好的服务于法官和整个司法系统,创造更高水平的数字正义。同时,在应用技术成果的过程中,也要注意避免算法本身引入新的不公平因素,这样才能更好的实现“努力让人民群众在每一个司法案件中感受到公平正义”的目标。
如果大家还想了解关于“人工智能可以为法律做什么”的更多信息,请关注将于 12 月 16-18 日在深圳举办的CNCC2021,届时刘奕群老师将在大会上做精彩的报告。
评论