0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DISC-LawLLM:复旦大学团队发布中文智慧法律系统,构建司法评测基准,开源30万微调数据

深度学习自然语言处理 来源:深度学习自然语言处理 2023-09-28 17:34 次阅读

背景介绍

随着智慧司法的兴起,智能化方法驱动的智能法律系统可以惠及不同的群体。例如,为法律专业人员减轻文书工作,为普通民众提供法律咨询服务,为法学学生提供学习和考试辅导。

由于法律知识的独特性和司法任务的多样性,之前智慧司法研究方面,主要着眼于为特定任务设计自动化算法,难以满足对司法领域提供支撑性服务的需求,离应用落地有不小的距离。最近,大型语言模型(LLMs)展示出强大的能力在不同的传统任务上,为智能法律系统的进一步发展带来希望。

复旦大学数据智能与社会计算实验室(FudanDISC)发布大语言模型驱动的中文智慧法律系统——DISC-LawLLM。该系统可以面向不同用户群体,提供多样的法律服务。此外,构建了评测基准DISC-Law-Eval,从客观和主观两个方面来评测法律大语言模型,模型在评测中的表现相较现有的法律大模型有明显优势。

课题组同时公开包含30万高质量的监督微调(SFT)数据集——DISC-Law-SFT,模型参数和技术报告也一并开源。

DISC

01

样例展示

用户有法律方面的疑问时,可以向模型咨询,描述疑问,模型会给出相关的法律规定和解释、推荐的解决方案等。

76e80f7a-5ddd-11ee-939d-92fbcf53809c.gif

图1 法律咨询示例 专业法律者和司法机关,可以利用模型完成法律文本摘要、司法事件检测、实体和关系抽取等,减轻文书工作,提高工作效率。

77166b04-5ddd-11ee-939d-92fbcf53809c.gif

图2 司法文书分析 法律专业的学生在准备司法考试过程中,可以向模型提出问题,帮助巩固法律知识,解答法律考试题。

7738f4b2-5ddd-11ee-939d-92fbcf53809c.gif

图3 考试助手示例 在需要外部法条做支撑时,模型会根据问题在知识库中检索相关内容,给出回复。

77674b32-5ddd-11ee-939d-92fbcf53809c.gif

图4 检索增强场景下的对话

02

DISC-LawLLM介绍

DISC-LawLLM是基于我们构建的高质量数据集DISC-Law-SFT在通用领域中文大模型Baichuan-13B上进行全参指令微调得到的法律大模型。值得注意的是,我们的训练数据和训练方法可以被适配到任何基座大模型之上。 DISC-LawLLM具有三个核心能力: 1. 基础的法律文本处理能力。针对法律文本理解与生成的不同基础能力,包括信息抽取、文本摘要等,我们基于现有的NLP司法任务公开数据和真实世界的法律相关文本进行了微调数据的构建。 2. 法律推理思维能力。针对智慧司法领域任务的需求,我们使用法律三段论这一法官的基本法律推理过程重构了指令数据,有效地提高了模型的法律推理能力。 3. 司法领域知识检索遵循能力。智慧司法领域的问题解决,往往需要依循与问题相关的背景法条或者案例,我们为智能法律处理系统配备了检索增强的模块,加强了系统对于背景知识的检索和遵循能力。 模型的整体框架如图5 所示。

7791aa26-5ddd-11ee-939d-92fbcf53809c.jpg

图5 模型在不同的法律场景下服务于不同的用户

03

方法:

数据集DISC-Law-SFT的构造

779aba94-5ddd-11ee-939d-92fbcf53809c.jpg

图6 DISC-Law-SFT的构造

DISC-Law-SFT分为两个子数据集,分别是DISC-Law-SFT-Pair和DISC-Law-SFT-Triplet,前者向LLM中引入了法律推理能力,而后者则有助于提高模型利用外部知识的能力。

77abd4d2-5ddd-11ee-939d-92fbcf53809c.jpg

表1:DISC-Law-SFT数据集内容介绍

数据来源

DISC-Law-SFT数据集的数据来源于三部分,一是与中国法律相关的NLP司法任务公开数据集,包括法律信息抽取、实体与关系抽取、司法文本摘要、司法考试问答、司法阅读理解、罪名/刑期预测等;二是收集了来自真实世界的法律相关的原始文本,如法律法规、司法案件、裁判文书、司法相关的考试等;三是通用的开源数据集,我们使用了alpaca_gpt4_data_zh和Firefly,这样可以丰富训练集的多样性,减轻模型在SFT训练阶段出现基础能力降级的风险。

指令对构造

对上述一、二来源的数据转换为“输入-输出”指令对后,我们采用以下三种方式对指令数据重构,以提高数据质量。行为塑造在法律三段论中,大前提为适用的法律规则,小前提为案件事实,结论为法律判断。这构成了法官的一个基本的法律推理过程。每一个案例都可以通过三段论得出一个明确的结论,如下所述: 大前提:法律规则 小前提:案件事实 结论:法律判断 我们利用GPT-3.5-turbo来完成行为塑造的重构,细化输出,确保每个结论都从一个法律条款和一个案例事实中得出。知识扩充对于行为塑造不适用的多项选择题,我们直接使用法律知识扩展输出,以提供更多的推理细节。许多与法律相关的考试和知识竞赛只提供答案选项,我们使用LLM来扩展所涉及的法律知识,给出正确的答案,并重建指令对。思维培养思维链(CoT)已被证明能有效地提高模型的推理能力。为了进一步赋予模型法律推理能力,我们设计了具有特定法律意义的思维链,称为LCoT,要求模型用法律三段论来推导答案。LCoT将输入X转换为如下的提示: 在法律三段论中,大前提是适用的法律规则,小前提是案件事实,结论是对案件的法律判断。 案件:X 让我们用法律三段论来思考和输出判断:

指令三元组构造

为了训练检索增强后的模型,我们构造了DISC-Law-SFT-Triplet子数据集,数据为<输入、输出、参考>形式的三元组,我们使用指令对构造中列出的三种策略对原始数据进行处理,获得输入和输出,并设计启发式规则来从原始数据中提取参考信息。

04

实验

训练

DISC-LawLLM的训练过程分为SFT和检索增强两个阶段。检索增强虽然我们使用了高质量的指令数据对LLM进行微调,但它可能会由于幻觉或过时的知识而产生不准确的反应。为了解决这个问题,我们设计了一个检索模块来增强DISC-LawLLM。 给定一个用户输入,检索器通过计算它们与输入的相似性,从知识库返回最相关的Top-K文档。这些候选文档,连同用户输入,用我们设计的模板构造后输入到DISC-LawLLM中。通过查询知识库,模型可以更好地理解主要前提,从而得到更准确可靠的答案

77b55f2a-5ddd-11ee-939d-92fbcf53809c.jpg

图7:检索增强的DISC-LawLLM

评测

评测基准 DISC-Law-Eval我们构建了一个公平的智能法律系统评估基准DISC-Law-Eval,从客观和主观的角度来评估,填补了目前还没有基准来对智能法律体系全面评估这一空白。

77c52978-5ddd-11ee-939d-92fbcf53809c.jpg

图8:DISC-Law-Eval评测基准客观评测为了客观、定量地评估智能法律系统的法律知识和推理能力,我们设计了一个客观的评价数据集,由一系列中国法律标准化考试和知识竞赛的单项和多项选择题组成,并根据内容复杂性和演绎难度,将问题分为困难、正常和容易三个层次。它可以提供一个更具挑战性和可靠的方法来衡量模型是否可以利用其知识来推理正确的答案。我们通过计算精度来表明性能。主观评测主观评测部分,我们采用问答的范式进行评估,模拟主观考试问题的过程。我们从法律咨询、在线论坛、与司法相关的出版物和法律文件中手工构建了一个高质量的测试集。我们用GPT- 3.5-turbo作为裁判模型来评估模型的输出,并用准确性、完整性和清晰度这三个标准提供1到5的评分。

评测结果

比较模型将我们的模型DISC-LawLLM(不外接知识库)与4个通用LLM和4个中文法律LLM进行比较,包括GPT-3.5-turbo、ChatGLM-6B 、Baichuan-13B-Chat 、Chinese-Alpaca2-13B ;LexiLaw 、LawGPT、Lawyer LLaMA、ChatLaw 。客观评测结果DISC-LawLLM在所有不同难度水平的测试中超过所有比较的同等参数量的大模型。即使与具有175B参数的GPT- 3.5-turbo相比,DISC-LawLLM在部分测试上也表现出了更优越的性能。表2是客观评测结果,其中加粗表示最佳结果,下划线表示次佳结果。

77cf4de0-5ddd-11ee-939d-92fbcf53809c.jpg

表2:客观评测结果主观评测结果在客观评测中,DISC-LawLLM获得了最高的综合得分,并在准确性和清晰度这两项标准中得分最高。表3是主观评测结果,其中加粗表示最佳结果。

77e45fd2-5ddd-11ee-939d-92fbcf53809c.jpg

表3:主观评测结果

05

总结

我们发布了DISC-LawLLM,一个提供多应用场景下法律服务的智能法律系统。基于公开的法律领域NLP任务数据集、法律原始文本和开源通用指令数据集,按照法律三段论重构了法律指令进行监督微调。为了提高输出的可靠性,我们加入了一个外部检索模块。通过提高法律推理和知识检索能力,DISC-LawLLM在我们构建的法律基准评测集上优于现有的法律LLM。该领域的研究将为实现法律资源平衡等带来更多前景和可能性,我们发布了所构建的数据集和模型权重,以促进进一步的研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4209

    浏览量

    90033
  • 智能化
    +关注

    关注

    15

    文章

    4142

    浏览量

    53267
  • 语言模型
    +关注

    关注

    0

    文章

    274

    浏览量

    9733
收藏 人收藏

    评论

    相关推荐

    模拟电路二级运放实例【复旦大学教材】

    发表于 12-15 10:57

    研究生毕业继续送资料——超经典复旦大学微电子工艺教案

    复旦大学微电子工艺教案包含:离子注入、晶体生长、实验室净化与硅片清洗、 光刻、氧化、工艺集成、未来趋势与挑战等。错过便不再拥有研究生毕业继续送资料——超经典复旦大学微电子工艺教案[hide][/hide]`
    发表于 12-15 15:23

    复旦大学labview

    复旦大学labview
    发表于 05-10 15:24

    复旦大学微电子专业专用集成电路内部电子版教程

    复旦大学微电子专业专用集成电路内部电子版教程
    发表于 08-19 23:42

    开放原子开源基金会联合发起“openDACS开源电路与系统设计自动化”开源项目

    发布薄膜晶体管紧凑模型OD_TFT v1.0;复旦大学:负责物理设计及建模验证 SIG,发布 Verilog Parser v1.0,联合南京 EDA 创新中心介绍 OpenEDI 开源数据基础组件
    发表于 06-24 15:17

    祝贺 | 鹏城实验室开源 EDA 团队勇夺 ICCAD 竞赛第一名

    中文大学、北京大学、台湾清华大学、德州大学奥斯汀分校、复旦大学等。Fig. 1:获奖证书一、赛事背景 电子设计自动化(Electronic Design Automation,EDA)工具是指包括
    发表于 12-13 18:29

    复旦大学的Nios教材教程

    复旦大学的Nios教材教程
    发表于 03-28 09:43 53次下载

    模拟CMOS集成电路设计(拉扎维)——复旦大学课件

    复旦大学课件
    发表于 11-22 17:22 129次下载

    Google 在上海与复旦大学签署两年期合作协议 Google将重点支持复旦大学在人工智能

    复旦大学签署两年期合作协议,宣布成立复旦大学-谷歌科技创新实验室,建立战略合作关系。
    发表于 05-31 15:55 667次阅读

    应用材料公司携手复旦大学举办半导体技术系列讲座

    复旦大学举办的半导体技术系列讲座于3月21日在复旦大学上海邯郸校区隆重开幕。应用材料中国公司总裁张天豪与应用材料中国公司首席技术官赵甘鸣博士出席开幕讲座并就“材料工程 驱动科技 成就未来”发表主题演讲。
    的头像 发表于 03-25 11:14 4113次阅读

    华为与复旦大学合作开发全国首个医学人工智能课程

    复旦大学基础医学院合作开发的 “医学人工智能与机器学习”课程在上海复旦大学进行集中授课.
    发表于 07-09 10:32 2034次阅读

    华为与复旦大学合作开发医学AI与机器学习课程

    复旦大学基础医学院合作开发的 “医学人工智能(AI)与机器学习”课程在上海复旦大学进行集中授课,吸引了来自医学院与附属医院的120多名本科生和研究生参与。
    的头像 发表于 07-10 09:50 3186次阅读

    复旦大学成功研发出了新型的存储技术

    复旦大学微电子学院教授张卫、周鹏团队研发出具有颠覆性的二维半导体准非易失存储原型器件,开创了第三类存储技术,解决了国际半导体电荷存储技术中“写入速度”与“非易失性”难以兼得的难题。
    发表于 11-08 11:24 1218次阅读

    科沃斯机器人担任复旦大学的助理辅导员

    复旦大学任重书院2020级中文系和希德书院2020级自然科学试验3班的助理辅导员。 在三全育人综合改革实践与探索示范培训班开班仪式上,小云和小卿向教育部思政司司长魏士强、复旦大学党委书记焦扬和全国多位重点高校领导展示了
    的头像 发表于 10-12 14:21 2033次阅读

    强强联手 | 晶华微-复旦大学联合实验室正式揭牌

    复旦大学微电子学院 (左)曾晓洋副院长 |(右)罗伟绍总经理 2023年4月13日,杭州晶华微电子股份有限公司和复旦大学微电子学院 共建混合信号链与泛在数据处理芯片校企联合实验室 揭牌仪式在
    发表于 04-14 16:00 505次阅读
    强强联手 | 晶华微-<b>复旦大学</b>联合实验室正式揭牌