首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
毛星亮  陈晓红  宁肯  李芳芳  张师超 《软件学报》2023,34(12):5724-5736
司法人工智能中主要挑战性问题之一是案情关键要素识别,现有方法仅将案情要素作为一个命名实体识别任务,导致识别出的多数信息是无关的.另外,也缺乏对文本的全局信息和词汇局部信息的有效利用,导致要素边界识别的效果不佳.针对这些问题,提出一种融合全局和局部信息的关键案情要素识别方法.所提方法首先利用BERT模型作为司法文本的输入共享层以提取文本特征.然后,在共享层之上建立司法案情要素识别、司法文本分类(全局信息)、司法中文分词(局部信息)这3个子任务进行联合学习模型.最后,在两个公开数据集上测试所提方法的效果,结果表明:所提方法 F1值均超过了现有的先进方法,提高了要素实体分类的准确率并减少了识别边界错误问题.  相似文献   

2.
人工智能语言处理技术在非结构化案件数据中的应用   总被引:1,自引:0,他引:1  
随着信息技术的快速发展,以文本、音频形式记录在案的非结构化数据急速增长,传统的案件人工处理方式已经很难满足应用需求,对公安机关案件侦查带来了重大挑战.对此,本文提出了利用人工智能技术领域的自然语言处理技术,对侵财类案件、电信诈骗类案件、团伙类案件等业务类型的信息系统中报警内容、简要案情、询问笔录等特征信息进行提取分析,实现非结构化文本挖掘分析,为侦查部门、情报部门提供研判支撑,再通过发案时空与犯罪轨迹的信息比对碰撞,并结合作案工具、作案手段等犯罪特点,从中发现高危犯罪嫌疑人进行主动推荐,可极大地缩小侦查范围,提高侦破效率.  相似文献   

3.
面向法律文本的实体关系联合抽取技术对于案情关键信息的智能提取至关重要,是智慧司法领域应用中的重要环节。目前的联合抽取方法虽然已经在特定罪名案件的数据集上取得了较好的效果,但是由于模型在训练时只关注了特定罪名类型文本数据的特点,使得模型的泛化能力有限,在应用到多罪名案件的情况下常常使得模型的效果下降。因此引入多任务学习的方法对多罪名情形下的实体关系联合抽取进行了研究,以涉毒类案件和盗窃类案件两大类罪名的文书数据为基础,构建了一个罪名分类任务作为联合抽取的辅助任务,通过基于特征筛选的动态加权多任务模型同时对两个任务进行学习,在单任务模型的基础上整体F1值提升了2.4个百分点,在涉毒类案件和盗窃类案件上的F1值分别提升了1.6和3.2个百分点。  相似文献   

4.
崔博文  金涛  王建民 《计算机应用》2021,41(4):1055-1063
电子病历信息抽取技术能够从自由文本电子病历中获取到有用的关键信息,从而为医院的信息管理和后续的信息分析处理工作提供帮助。简要介绍了现阶段自由文本电子病历信息抽取的主要流程,分析了近十几年来关于自由文本电子病历中命名实体、实体修饰与实体间关系三类关键信息的单独抽取以及联合抽取方法的研究成果,对这些成果所采用的主要方法、使用的数据集、最终的实验效果等进行了对比总结。除此之外,还对最新的几种流行方法的特点以及优缺点进行了分析,对目前电子病历信息抽取领域常用数据集进行了总结,分析了目前国内相关领域的现状和发展趋势。  相似文献   

5.
审判难度预测(TDP)是指在给定案情描述文本的情况下,自动预测案件审判难易程度,其在司法智能化系统中具有广阔的应用前景.现阶段,案件审判难度预测工具严重依赖专家经验规则,存在较大偏差,相关的研究工作较少.针对此问题,将其归结为自然语言处理中的文本分类问题,通过分析发现传统分类方法未考虑起诉状中审判要素间的结构独特性和逻辑依赖性,导致难以准确预测案件难易程度.为解决上述挑战,通过对起诉状的研究,结合案件繁简审判要素,提出一种新的神经网络模型MAT-TAN.具体地,该模型首先采用一种掩码注意力网络(MAT)对案情描述文本进行细粒度分析.其中的掩码机制扮演智能门控者的角色,起到聚焦审判要素特定位置的作用,结合自注意力机制,实现了对各审判要素全面、准确的特征提取.其次,提出一种拓扑关联网络(TAN)对要素间的司法逻辑依赖关系进行建模,并有效融合不同要素的特征,最终实现案件审判难度预测.在法院真实数据上的实验结果表明,与基准的文本分类方法相比,该模型宏平均F1值提升了0.036,在审判难度预测上具备较好的使用效果.  相似文献   

6.
案件舆情摘要是从涉及特定案件的新闻文本簇中,抽取能够概括其主题信息的几个句子作为摘要.案件舆情摘要可以看作特定领域的多文档摘要,与一般的摘要任务相比,可以通过一些贯穿于整个文本簇的案件要素来表征其主题信息.在文本簇中,由于句子与句子之间存在关联关系,案件要素与句子亦存在着不同程度的关联关系,这些关联关系对摘要句的抽取有着重要的作用.提出了基于案件要素句子关联图卷积的案件文本摘要方法,采用图的结构来对多文本簇进行建模,句子作为主节点,词和案件要素作为辅助节点来增强句子之间的关联关系,利用多种特征计算不同节点间的关联关系.然后,使用图卷积神经网络学习句子关联图,并对句子进行分类得到候选摘要句.最后,通过去重和排序得到案件舆情摘要.在收集到的案件舆情摘要数据集上进行实验,结果表明:提出的方法相比基准模型取得了更好的效果,引入要素及句子关联图对案件多文档摘要有很好的效果.  相似文献   

7.
生物医学文本蕴含着丰富的探索价值,其为生物医学工作者进行研究提供了宝贵的领域知识.充分且高效地利用海量的生物医学文献,并从中发现重要的隐藏信息、获取专业领域知识,对生物医学研究具有重要的意义.生物医学实体链接是对生物医学文本中的命名实体进行识别,并将表示该实体的某些字符串映射到生物医学领域知识库中对应概念.生物医学实体链接任务通常面临两个主要的挑战:(1)自然语言描述的歧义性.(2)自然语言文本与生物医学知识库的异构性.传统的方法基于特征选择或规则发现,依赖于手动选择特征或定义规则,处理分阶段模型中也可能出现误差传播.因此,本工作提出了一种深度学习和知识库相结合的实体链接方法,通过深度挖掘自然语言文本的隐藏特征,及其与知识库概念图间结构的相似性,将生物医学实体识别与实体-概念对齐两个任务进行联合式处理.该方法旨在通过标准的生物医学知识库,自动获取生物医学实体的语义信息,挖掘生物医学实体之间的语义关系.实验表明,该方法在实体识别与对齐方面取得了较好的效果,显著提高了任务的精确性,在实体链接核心任务上取得了超过10%的性能提升.  相似文献   

8.
以法学知识为中心的认知智能是当前司法人工智能发展的重要方向。该文提出了以自然语言处理(NLP)为核心技术的司法案件案情知识图谱自动构建技术。以预训练模型为基础,对涉及的实体识别和关系抽取这两个NLP基本任务进行了模型研究与设计。针对实体识别任务,对比研究了两种基于预训练的实体识别模型;针对关系抽取任务,该文提出融合平移嵌入的多任务联合的语义关系抽取模型,同时获得了结合上下文的案情知识表示学习。在“机动车交通事故责任纠纷”案由下,和基准模型相比,实体识别的F1值可提升0.36,关系抽取的F1值提升高达2.37。以此为基础,该文设计了司法案件的案情知识图谱自动构建流程,实现了对数十万份判决书案情知识图谱的自动构建,为类案精准推送等司法人工智能应用提供语义支撑。  相似文献   

9.
案情阅读理解是机器阅读理解在司法领域的具体应用。案情阅读理解通过计算机阅读裁判文书,并回答相关问题,是司法智能化的重要应用之一。当前机器阅读理解的主流方法是采用深度学习模型对文本词语进行编码,并由此获得文本的向量表示。模型建立的核心问题是如何获得文本的语义表示,以及问题与上下文的匹配。考虑到句法信息有助于模型学习句子主干信息,以及中文字符具有潜在的语义信息,提出了融合句法指导与字符注意力机制的案情阅读理解方法。通过融合句法信息及中文字符信息,提升模型对案情文本的编码能力。在法研杯2019阅读理解数据集上的实验结果表明,所提出的方法与基线模型相比EM值提升了0.816,F1值提升了1.809%。  相似文献   

10.
现有的融合文本或邻居信息的知识补全模型忽略文本和邻居之间的相互作用,难以捕获与实体具有较强语义相关性的信息,加上基于卷积神经网络的模型未考虑实体中的关系相关信息,导致预测性能不佳.因此,文中结合文本信息和拓扑邻居信息,提出基于Triplet注意力的循环卷积神经网络模型.首先,通过语义匹配的方式,选取文本描述中与实体具有较强语义相关性的单词.再与拓扑邻居复合作为实体邻居,增强实体表示.然后,重塑实体的融合表示和关系表示.最后,利用Triplet注意力优化卷积输入,使卷积操作能提取实体中与关系相关的特征,提升模型性能.在多个公开数据集上的链路预测实验表明,文中模型性能较优.  相似文献   

11.
铁路事故的相关信息以事故概况文本的形式存在, 对于铁路安全工作有重要意义. 但由于缺乏有效的信息抽取手段, 导致分散在文本中的铁路事故知识没有得到充分的利用. 命名实体识别是信息抽取的重要子任务, 目前关于事故领域的命名实体识别问题研究较少. 针对铁路事故命名实体识别问题, 提出一种融合字位置特征的命名实体识别模型, 该模型通过全连接神经网络获取字的位置特征, 并与语义层面的字向量合并作为字的最终向量表示输入BiLSTM-CRF模型获取最优标签序列. 实验结果表明, 模型在铁路事故文本命名实体识别问题上的准确率、召回率和F1值分别为93.29%、94.77%和94.02%, 相比于传统模型, 取得了更好的效果, 为铁路事故知识图谱的构建奠定基础.  相似文献   

12.
传统基于词向量表示的命名实体识别方法通常忽略了字符语义信息、字符间的位置信息,以及字符和单词间的关联关系。提出一种基于单词-字符引导注意力网络(WCGAN)的中文旅游命名实体识别方法,利用单词引导注意力网络获取单词间的序列信息和关键单词信息,采用字符引导注意力网络捕获字符语义信息和字符间的位置信息,增强单词和字符间的关联性与互补性,从而实现中文旅游文本中命名实体的识别。实验结果表明,WCGAN方法在ResumeNER和TourismNER基准数据集上的F值分别为93.491%和92.860%,相比Bi-LSTM+CRF、Char-Dense等方法识别效果更好。  相似文献   

13.
智能电网通过引入信息和通信技术服务, 带来了传统电网的技术演变, 与此同时在安全方面也带来了严重的挑战. 本文提出了一种智能电网入侵检测系统安全架构和一种基于无监督学习的新型入侵检测系统(intrusion detection system, IDS). 我们设计了区域式训练(block-training)架构, 不仅可以减轻数据中心的计算压力, 还可以对本地流量进行特征训练. 我们还提出了一种基于交叉验证的递归特征消除的差分自编码器算法(RFECV-VAE). RFECV-VAE综合了RFECV和VAE模型, 在特征选择过程使用递归特征消除交叉验证法(recursive feature elimination cross-validation, RFECV), 异常检测采用差分自编码器(variational autoencoders, VAE), 它可以对大规模高维数据进行高精度异常检测. 最后, 本文选择深度自编码器、深度自编码器高斯混合模型、单类支持向量机、隔离森林、差分自编码器作为对比算法, 采用准确率、ROC_AUC、F1_score和训练时间等指标来进行性能评估. 实验结果表明, RFECV-VAE算法结果优于其他比较算法.  相似文献   

14.
徐宁  杨梦梦  刘文清 《计算机工程》2008,34(12):254-256
对SELinux策略服务器在安全性和脆弱性方面存在的问题进行分析,基于可信计算提出信任特征的概念,将其引入到SELinux策略服务器的设计中,给出一种基于信任特征的SELinux策略服务器体系结构。通过用户空间安全服务器与策略管理服务器的构建解决脆弱性问题,提供可信实体信任特征,解决安全性问题,有效完善了SELinux体系结构。  相似文献   

15.
王义  沈洋  戴月明 《计算机工程》2020,46(5):102-108
以词向量为输入的单通道卷积神经网络无法充分利用文本的特征信息,并且不能准确识别中文文本的多义词。针对上述问题,建立一种细粒度的多通道卷积神经网络模型。采用word2vec进行词向量的预训练,利用3个不同的通道做卷积运算,分别为原始词向量、词向量与词性表示相结合的词性对向量以及细粒度的字向量。通过词性标注进行词义消歧,利用细粒度的字向量发现深层次的语义信息。在此基础上,设置不同尺寸的卷积核以学习句子内部更高层次抽象的特征。仿真结果表明,该模型较传统卷积神经网络模型在情感分类的准确率和F1值上性能均有明显提升。  相似文献   

16.
提出并实现了一种基于支持向量机(SVM)的中文文本中人名的自动识别方法。对训练文本进行自动分词、词性标注及分类标注,然后按字抽取特征,并将其转化为二进制表示,在此基础上建立了训练集。然后通过对多项式Kernel函数的测试,得到了用支持向量机进行人名识别的机器学习模型。实验结果表明,所建立的SVM人名识别模型是有效的。  相似文献   

17.
由于中文文本之间没有分隔符,难以识别中文命名实体的边界.此外,在垂直领域中难以获取充足的标记完整的语料,例如医疗领域和金融领域等垂直领域.为解决上述不足,提出一种动态迁移实体块信息的跨领域中文实体识别模型(TES-NER),将跨领域共享的实体块信息(entity span)通过基于门机制(gate mechanism)的动态融合层,从语料充足的通用领域(源领域)动态迁移到垂直领域(目标领域)上的中文命名实体模型,其中,实体块信息用于表示中文命名实体的范围.TES-NER模型首先通过双向长短期记忆神经网络(BiLSTM)和全连接网络(FCN)构建跨领域共享实体块识别模块,用于识别跨领域共享的实体块信息以确定中文命名实体的边界;然后,通过独立的基于字的双向长短期记忆神经网络和条件随机场(BiLSTM-CRF)构建中文命名实体识别模块,用于识别领域指定的中文命名实体;最后构建动态融合层,将实体块识别模块抽取得到的跨领域共享实体块信息通过门机制动态决定迁移到领域指定的命名实体识别模型上的量.设置通用领域(源领域)数据集为标记语料充足的新闻领域数据集(MSRA),垂直领域(目标领域)数据集为混合领域(OntoNotes 5.0)、金融领域(Resume)和医学领域(CCKS 2017)这3个数据集,其中,混合领域数据集(OntoNotes 5.0)是融合了6个不同垂直领域的数据集.实验结果表明,提出的模型在OntoNotes 5.0、Resume和CCKS 2017这3个垂直领域数据集上的F1值相比于双向长短期记忆和条件随机场模型(BiLSTM-CRF)分别高出2.18%、1.68%和0.99%.  相似文献   

18.
张启辰  王帅  李静梅 《软件学报》2024,35(4):1885-1898
口语理解(spoken language understanding, SLU)是面向任务的对话系统的核心组成部分,旨在提取用户查询的语义框架.在对话系统中,口语理解组件(SLU)负责识别用户的请求,并创建总结用户需求的语义框架, SLU通常包括两个子任务:意图检测(intent detection, ID)和槽位填充(slot filling, SF).意图检测是一个语义话语分类问题,在句子层面分析话语的语义;槽位填充是一个序列标注任务,在词级层面分析话语的语义.由于意图和槽之间的密切相关性,主流的工作采用联合模型来利用跨任务的共享知识.但是ID和SF是两个具有强相关性的不同任务,它们分别表征了话语的句级语义信息和词级信息,这意味着两个任务的信息是异构的,同时具有不同的粒度.提出一种用于联合意图检测和槽位填充的异构交互结构,采用自注意力和图注意力网络的联合形式充分地捕捉两个相关任务中异构信息的句级语义信息和词级信息之间的关系.不同于普通的同构结构,所提模型是一个包含不同类型节点和连接的异构图架构,因为异构图涉及更全面的信息和丰富的语义,同时可以更好地交互表征不同粒度节点之间的信息.此...  相似文献   

19.
短文本情感分析用于判断文本的情感极性,在商品评论、舆情监控等领域有重要应用。由于目前主流的基于词注意力机制的双向循环神经网络模型性能很大程度上依赖于分词的准确性,且注意力机制需较多的参数依赖,无法使模型更多的关注短文本的内部序列关系。针对上述问题,该文提出了基于字向量表示方法并结合Self-attention和BiLSTM的中文短文本情感分析算法。首先,对短文本进行字向量化表示,采用BiLSTM网络提取文本上下文关系特征,通过自注意力机制动态调整特征权重,Softmax分类器得到情感类别。在COAE 2014微博数据集和酒店评论数据集的实验结果表明,采用字向量文本表示方法较词向量更适合短文本,自注意力机制可以减少外部参数依赖,使模型能学到更多的文本自身关键特征,分类性能可分别提高1.15%和1.41%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号