首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 172 毫秒
1.
针对司法领域标记数据匮乏、标注质量不高、存在强逻辑性导致裁判文书量刑情节识别效果不佳的问题,提出一种基于反绎学习的量刑情节识别模型ABL-CON。首先结合神经网络与领域逻辑推理,通过半监督学习方法,使用置信学习方法表征情节识别置信度;然后修正无标签数据经过神经网络产生的不合逻辑的错误情节,重新训练识别模型,以提高识别精度。在自构建的司法数据集上的实验结果表明,使用50%标注数据与50%无标注数据的ABL-CON模型在Macro_F1值和Micro_F1值上分别达到了90.35%和90.58%,优于同样条件下的BERT和SS-ABL,也超越了使用100%标注数据的BERT模型。ABL-CON模型通过逻辑反绎修正不符合逻辑的标签能够有效提高标签的逻辑合理性以及标签的识别能力。  相似文献   

2.
裁判文书的类案推送策略有助于解决司法过程中的裁判尺度不统一、类案不同判、量刑不规范等问题。针对裁判文书类案推送任务,基于裁判文书在篇章结构和语言表述方面的特征,从裁判文书案情内容的抽取、案情内容中不同词性类别词项的权重分析、案情内容中未登录词的识别、案情内容中数量表述的相似度计算等角度展开研究,并设计相应的案情相似度计算模型。通过在真实裁判文书数据集合上的实验,表明了该模型的有效性。  相似文献   

3.
作为论辩挖掘领域中的重要研究问题,互动论点对识别旨在从对话文本中理解对话双方的观点,并识别出互动的论点对。现有基于深度学习的方法通过融合上下文信息取得了不错的效果,但是这些方法往往仅考虑整体上下文,忽略了上下文中可能存在的噪声文本,缺乏对论点间互动关系的细粒度建模能力。针对上述问题,该文首先基于语义相似度筛选过滤上下文,而后构建基于上下文的对偶互动图,从而细粒度地挖掘论点-上下文、论点-论点之间潜在的互动模式,以提高互动论点对识别性能。在CMV公开数据集上的实验结果显示,该文提出的方法取得了优于现有模型的性能,并具有一定的可解释性。  相似文献   

4.
随着裁判文书等司法大数据不断积累,如何将人工智能与法律相结合成为了法律智能研究的热点。该文针对2020中国法研杯司法人工智能挑战赛(CAIL2020)的机器阅读理解任务,提出了一种基于多任务联合训练的机器阅读理解模型。该模型将阅读理解任务划分为四个子模块: 文本编码模块、答案抽取模块、答案分类模块和支持句子判别模块。此外,该文提出了一种基于TF-IDF的“问题-文章句子”相似度匹配的数据增强方法。该方法对中国法研杯2019的训练集进行重新标注,实现数据增强。通过以上方法,最终该集成模型在2020中国法研杯机器阅读理解任务中联合F1值为74.49,取得全国第一名。  相似文献   

5.
曾兰兰  王以松  陈攀峰 《计算机应用》2022,42(10):3011-3017
正确识别裁判文书中的实体是构建法律知识图谱和实现智慧法院的重要基础。然而常用的命名实体识别(NER)模型并不能很好地解决裁判文书中的多义词表示和实体边界识别错误的问题。为了有效提升裁判文书中各类实体的识别效果,提出了一种基于联合学习和BERT的BiLSTM-CRF(JLB-BiLSTM-CRF)模型。首先,利用BERT对输入字符序列进行编码以增强词向量的表征能力;然后,使用双向长短期记忆(BiLSTM)网络建模长文本信息,并将NER任务和中文分词(CWS)任务进行联合训练以提升实体的边界识别率。实验结果表明,所提模型在测试集上的精确率达到了94.36%,召回率达到了94.94%,F1值达到了94.65%,相较于BERT-BiLSTM-CRF模型分别提升了1.05个百分点、0.48个百分点和0.77个百分点,验证了JLB-BiLSTM-CRF模型在裁判文书NER任务上的有效性。  相似文献   

6.
以法学知识为中心的认知智能是当前司法人工智能发展的重要方向。该文提出了以自然语言处理(NLP)为核心技术的司法案件案情知识图谱自动构建技术。以预训练模型为基础,对涉及的实体识别和关系抽取这两个NLP基本任务进行了模型研究与设计。针对实体识别任务,对比研究了两种基于预训练的实体识别模型;针对关系抽取任务,该文提出融合平移嵌入的多任务联合的语义关系抽取模型,同时获得了结合上下文的案情知识表示学习。在“机动车交通事故责任纠纷”案由下,和基准模型相比,实体识别的F1值可提升0.36,关系抽取的F1值提升高达2.37。以此为基础,该文设计了司法案件的案情知识图谱自动构建流程,实现了对数十万份判决书案情知识图谱的自动构建,为类案精准推送等司法人工智能应用提供语义支撑。  相似文献   

7.
面向司法领域的高质量开源藏汉平行语料库构建   总被引:1,自引:0,他引:1  
面向司法领域的藏汉机器翻译面临严重的数据稀疏问题。该文从两个方面展开研究: 第一,相较通用领域,司法领域的藏语需要有更严谨的逻辑表达和更多的专业术语。然而,目前藏语资源在司法领域内缺乏对应的语料、稀缺专业术语词以及句法结构。第二,藏语的特殊词汇表达方式和特定句法结构使得通用语料构建方法难以构建藏汉平行语料库。因此,该文提出一种针对司法领域藏汉平行语料的轻量级构建方法。首先,采取人工标注的方法获取一个中等规模的司法领域藏汉专业术语表作为先验知识库,以避免领域越界而产生的语料逻辑表达问题和领域术语缺失问题;其次,从全国的地方法庭官网采集实例语料数据,例如,裁判文书。优先寻找藏文实例数据,其次是汉语,以避免后续构造藏语句子而丢失特殊的词汇表达和句式结构。基于以上原则采集藏汉语料构建高质量的藏汉平行语料库,具体方法包括: 爬虫获取语料,规则断章对齐检测,语句边界识别,语料库自动清洗。最终,该文构建了16万级规模的藏汉司法领域语料库,并通过多种翻译模型和交叉实验验证了构建的语料库具有高质量和鲁棒性等特点。另外,此语料库会开源以便相关研究人员用于科研工作。  相似文献   

8.
裁判文书中的证据是法官量刑的基础。通过证据抽取可以对案件审判质量进行评估,从而支撑“智慧法院”建设。裁判文书中的证据大多数都比较长且存在嵌套现象,例如,“张X的身份证复印件”中的 “身份证复印件”,而传统的命名实体识别模型BiLSTM-CRF对较长实体和嵌套实体的识别性能较低。为了解决因裁判文书中的证据长度较长和嵌套现象而导致证据抽取性能较低的问题,该文提出了一种基于边界识别与组合的证据抽取模型。该模型首先使用BiLSTM-CRF模型识别证据的开始边界和结束边界;然后组合开始边界和结束边界,形成携带大量丰富细粒度边界信息的候选证据;最后使用基于三通道的多核CNN模型,融合细粒度的边界信息特征,对候选证据进行筛选,识别候选证据中正确的证据。实验结果表明,该文提出的模型能有效地抽取裁判文书中的证据。  相似文献   

9.
裁判文书中的命名实体识别是自动化审判的关键一步,如何能够有效的分辨出案件的关键命名实体是本文的研究重点.因此本文针对财产纠纷审判案件,提出了一种基于SVM-BiLSTM-CRF的神经网络模型.首先利用SVM筛选出包含关键命名实体的句子,然后将正确包含此类实体的句子转化为字符级向量作为输入,构建适合财产纠纷裁判文书命名实体识别的BiLSTM-CRF深层神经网络模型.通过构建训练数据进行验证和对比,该模型比其他相关模型表现出更高的召回率和准确率.  相似文献   

10.
提出了一个基于描述逻辑规则的自动服务交互的模型框架,将服务抽象成基于消息的服务模型。该服务模型将在服务之间传递的面向对象的服务消息作为服务交互的主要手段,使用描述逻辑的概念对服务之间传递的消息数据进行语义分析,在服务内部数据模式与描述逻辑知识库间建立对应关系。在交互规则方面,使用基于描述逻辑和Horn子句进行描述;在描述逻辑的Tableau算法的支持下,对知识库概念和规则进行有效性、一致性和可满足性的验证,实现数据异构模式下服务间基于语义的自动交互。  相似文献   

11.
Lu  Xin  Deng  Yao  Sun  Ting  Gao  Yi  Feng  Jun  Sun  Xia  Sutcliffe  Richard 《Applied Intelligence》2022,52(2):1878-1892

Sentence matching is widely used in various natural language tasks, such as natural language inference, paraphrase identification and question answering. For these tasks, we need to understand the logical and semantic relationship between two sentences. Most current methods use all information within a sentence to build a model and hence determine its relationship to another sentence. However, the information contained in some sentences may cause redundancy or introduce noise, impeding the performance of the model. Therefore, we propose a sentence matching method based on multi keyword-pair matching (MKPM), which uses keyword pairs in two sentences to represent the semantic relationship between them, avoiding the interference of redundancy and noise. Specifically, we first propose a sentence-pair-based attention mechanism sp-attention to select the most important word pair from the two sentences as a keyword pair, and then propose a Bi-task architecture to model the semantic information of these keyword pairs. The Bi-task architecture is as follows: 1. In order to understand the semantic relationship at the word level between two sentences, we design a word-pair task (WP-Task), which uses these keyword pairs to complete sentence matching independently. 2. We design a sentence-pair task (SP-Task) to understand the sentence level semantic relationship between the two sentences by sentence denoising. Through the integration of the two tasks, our model can understand sentences more accurately from the two granularities of word and sentence. Experimental results show that our model can achieve state-of-the-art performance in several tasks. Our source code is publicly available1.

  相似文献   

12.
针对互联网上日渐丰富的多语言文本和匮乏大规模标注平行语料库的问题,为了从多语言的信息源挖掘语言间的关联性与扩展知识图谱,提出了基于注意力迁移的跨语言关系提取方法。首先针对语言间的实际平行语料情况,分类进行跨语言平行语料映射,并针对缺乏种子词典的低资源语言对,提出神经网络翻译模型获取目标语言数据集并保存多语言间的对应注意力权重关系,然后利用BERT端对端的联合抽取模型抽取训练数据实体关系特征,反向迁移语言间注意力权重关系,最后利用反向迁移的注意力进行增强的关系抽取。实验表明,该模型的关系提取效果相比其他模型在准确率和回归上都有所提升,在缺乏双语词典情况下也表现出较好的性能。  相似文献   

13.
基于VRML-JAVA的网络交互式虚拟装配环境构建   总被引:4,自引:0,他引:4  
虚拟现实建模语言(VRML)作为构建网络虚拟现实的国际标准,其应用得到了越来越多的关注。该文讨论了VRML虚拟场景与外界交互的手段和方法,着重研究了通过VRML外部编程接口EAI利用Java Applet来实现交互式网络虚拟装配环境的方法和实现过程,并给出了运行实例,通过该平台可以实现异地设计信息交流。  相似文献   

14.
反问句是以疑问的形式表达强烈情感的修辞方式,对其有效识别可为自然语言处理中的情感分析任务提供技术支持。该文提出了一种基于语言特征自动获取的反问句识别方法。首先,利用标签注意机制,建立了一个数据驱动的特征抽取模型,用于获取与任务相关的词汇、句法结构、符号标记和话题等语言特征。其次,利用Bi-LSTM模型分别对句子和语言特征进行表示,两者的交互注意被用于获取句子的各个词和符号的注意力权重向量。该权重向量作用于句子的表示,用于构建一个强化语言特征的反问句识别模型。在中文微博数据集上的实验结果表明,提出的方法与之前的工作相比,反问句识别性能有显著提升。  相似文献   

15.
依赖于大规模的平行语料库,神经机器翻译在某些语言对上已经取得了巨大的成功.无监督神经机器翻译U N MT又在一定程度上解决了高质量平行语料库难以获取的问题.最近的研究表明,跨语言模型预训练能够显著提高U N MT的翻译性能,其使用大规模的单语语料库在跨语言场景中对深层次上下文信息进行建模,获得了显著的效果.进一步探究基...  相似文献   

16.
孪生网络预训练语言模型(Sentence Embeddings using Siamese BERT-Networks,SBERT)在文本匹配的表示层面上存在两个缺点:(1)两个文本查询经 BERT Encoder 得到向量表示后,直接进行简单计算;(2)该计算不能考虑到文本查询之间更细粒度表示的问题,易产生语义上的偏离,难以衡量单个词在上下文中的重要性。该文结合交互方法,提出一种结合多头注意力对齐机制的 SBERT 改进模型。该模型首先获取经 SBERT 预训练的两个文本查询的隐藏层向量;然后,计算两文本之间的相似度矩阵,并利用注意力机制分别对两个文本中的 token 再次编码,从而获得交互特征;最后进行池化,并整合全连接层进行预测。该方法引入了多头注意力对齐机制,完善了交互型文本匹配算法,加强了相似文本之间的关联度,提高了文本匹配效果。在 ATEC 2018 NLP 数据集及 CCKS 2018 微众银行客户问句匹配数据集上,对该方法进行验证,实验结果表明,与当前流行的 5 种文本相似度匹配模型 ESIM、ConSERT、BERT-whitening、SimCSE 以及 baseline 模型 SBERT 相比,本文模型在 F1 评价指标上分别达到了 84.7% 和90.4%,比 Baseline 分别提高了 18.6% 和 8.7%,在准确率以及召回率方面也表现出了较好的效果,且具备一定的鲁棒性。  相似文献   

17.
文本蕴含技术在自然语言处理中得到了广泛应用,但存在词对推理能力差的问题(例如,句对中出现反义词对无法判断反义关系等)。重点研究了词对知识向量的获取问题,包括融合多特征及有监督的词对关系向量获取、采用TransR的词对关系表示获取、反义词向量表示获取等三种方法,并将知识向量引入到文本蕴含识别模型中的词对齐和注意力机制部分。有关实验表明,上述方法相比经典模型有了较大的提升。  相似文献   

18.
在当前自然语言处理多意图识别模型研究中,存在建模方式均为从意图到插槽的单一方向的信息流建模,忽视了插槽到意图的信息流交互建模研究,意图识别任务易于混淆且错误捕获其他意图信息,上下文语义特征提取质量不佳,有待进一步提升等问题.本文以当前先进的典型代表GL-GIN模型为基础,进行优化改进,探索了插槽到意图的交互建模方法,运用槽到意图的单向注意力层,计算插槽到意图的注意力得分,纳入注意力机制,利用插槽到意图的注意力得分作为连接权重,使其可以传播和聚集与意图相关的插槽信息,使意图重点关注与其相关的插槽信息,从而实现多意图识别模型的双向信息流动;同时,引入BERT模型作为编码层,以提升了语义特征提取质量.实验表明,该交互建模方法效果提升明显,与原GL-GIN模型相比,在两个公共数据集(MixATIS和MixSNIPS)上,新模型的总准确率分别提高了5.2%和9%.  相似文献   

19.
中文隐式篇章关系识别是一个具有挑战性的任务,其难点在于如何捕获论元的语义信息。该文提出了一个模拟人类双向阅读和重复阅读过程的三层注意力网络模型(TLAN)用于识别中文隐式篇章关系。首先,使用Self-Attention层对论元进行编码;然后,通过细粒度的Interactive Attention层模拟双向阅读过程以生成包含交互信息的论元表示,并且通过非线性变换获得论元对信息的外部记忆;最后,通过包含外部记忆的注意力层来模拟重复阅读过程,在论元对记忆的引导下生成论元的最终表示。在中文篇章树库(CDTB)上进行的隐式篇章关系识别实验结果显示,该文提出的模型TLAN在Micro-F1和Macro-F1上超过了多个基准模型。  相似文献   

20.
Security under man-in-the-middle attacks is extremely important when protocols are executed on asynchronous networks, as the Internet. Focusing on interactive proof systems, one would like also to achieve unconditional soundness, so that proving a false statement is not possible even for a computationally unbounded adversarial prover. Motivated by such requirements, in this paper we address the problem of designing constant-round protocols in the plain model that enjoy simultaneously non-malleability (i.e., security against man-in-the-middle attacks) and unconditional soundness (i.e., they are proof systems).We first give a construction of a constant-round one-many (i.e., one honest prover, many honest verifiers) concurrent non-malleable zero-knowledge proof (in contrast to argument) system for every NP language in the plain model. We then give a construction of a constant-round concurrent non-malleable witness-indistinguishable proof system for every NP language. Compared with previous results, our constructions are the first constant-round proof systems that in the plain model guarantee simultaneously security against some non-trivial concurrent man-in-the-middle attacks and against unbounded malicious provers.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号