结合主动学习的条件随机场模型用于法律术语的自动识别

2023-05-19 08:22:12   第一文档网     [ 字体: ] [ 阅读: ] [ 文档下载 ]
说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。下载word有问题请添加QQ:admin处理,感谢您的支持与谅解。点击这里给我发消息

#第一文档网# 导语】以下是®第一文档网的小编为您整理的《结合主动学习的条件随机场模型用于法律术语的自动识别》,欢迎阅读!
自动识别,术语,模型,主动,机场

Automatic Recognizing Legal Terminologies with Active

Learning and Conditional Random Field Model



作者:黄菡[1];王宏宇[2,3];王晓光[2,3]

作者机构:[1]中南财经政法大学信息与安全工程学院,武汉430073;[2]武汉大学信息资源研究中心,武汉430072;[3]武汉大学信息管理学,武汉430072

出版物刊名:数据分析与知识发现 页码:66-74

年卷期:2019 6

主题词:法律文本;命名实体识别;主动学习;条件随机场;样例选择



摘要:【目的】实现对大规模法律文本中法律术语的自动识别,促进法律大数据的结构化进程。【方法】将条件随机场模型作为主动学习算法的分类器,在经过K-means聚类后的语料库中,按照分层抽样的方式抽取用于启动主动学习算法的初始样本,将熵值作为主动学习的样例选择依据,迭代地进行主动学习的学习过程及样例选择过程,直到模型的调和均值F值趋于稳定时停止迭代,输出最终的法律术语自动识别模型——AL-CRF模型。【结果】在中文裁判文书上的命名实体识别实验表明,通过少量且高质的样本训练的AL-CRF模型对于法律术语的识别准确率和召回率可达90%以上,且相较于等标注工作量训练的CRF模型F值提高4.85%【局限】K-means聚类方法对噪声和离群点较为敏感,可能会影响模型的识别效果。【结论】结合主动学习的条件随机场模型能在保证识别质量的情况下,减少低质量样本的标注工作量。


本文来源:https://www.dywdw.cn/e3120b897c21af45b307e87101f69e314232fa67.html

相关推荐
推荐阅读