首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
数据ETL过程中的实体识别方法   总被引:3,自引:0,他引:3  
实体识别是根据记录所包含的各种描述信息来确定与之相对应的现实实体,记录的相似匹配是数据集成中最具挑战的工作。分析了常见实体识别算法,提出了实体识别过程框架,用以实现数据ETL的数据规约功能。在开发的实现了语义数据集成的联通统一客户资料系统(UCIS)中,用实体识别算法进行测试,得到的平均返回率和精度分别为86.3%,96.5%,能够满足工程应用的要求。  相似文献   

2.
半监督学习是一种结合监督学习与无监督学习的学习方法,通过利用未标记数据,提高标记数据所建立模型的效果,目的是减少传统的机器学习任务中对大量标注数据的需求、降低人工成本.在中文电子病历实体识别领域,由于缺少足够的标注数据,且医学文本专业性较强、人工标注成本高,可以利用半监督学习方法,提升少量标注数据的训练效果.本文介绍了中文电子病历实体识别的研究背景和半监督学习的相关研究,并应用改进后的Tri-Training算法,提升中文电子病历实体识别模型的效果.  相似文献   

3.
针对通用领域的命名实体识别(Named Entity Recognition, NER)模型在红色文化的实体识别中难以完整准确地进行实体划分的问题,提出了一种基于双向长短期记忆(Bi-directional Long Short-Term Memory, BiLSTM)网络模型结合词汇增强和注意力机制方法的改进算法红色学习双向长短期记忆(Red Learing BiLSTM,RLBiLSTM)网络,用于红色文化的NER。对红色文化数据集中的重要词汇进行数据处理,构建一个包含红色文化特征的词表,将词表信息与BERT底层信息进行融合。使用BiLSTM网络和注意力机制考虑上下文和全局信息,并利用条件随机场进行实体识别。实验表明,将改进的算法应用于RedCulture-1数据集上取得了较好的识别效果,和传统的算法相比具有更高的准确率,有利于解决红色文化的实体识别问题。  相似文献   

4.
随着互联网技术的快速发展,人类已经习惯于从网络上获取知识,然而伴随着网络资源爆炸式增长,网络资源内容多样,人们使用浏览器获取知识的方法却停滞不前,因此需要一种工具来帮助人们从网络中高效地获取和发现新知识.由于网络资源文本并不是完全结构化的数据,还包括一些自由文本等复杂的无结构数据,这种文本信息虽然方便人们自由表达概念以及事件等,但是同时也为机器搜索、统计分析等制造了障碍.因此,为了在文本上更方便地进行知识分析和挖掘,本文提出一种基于深度学习的算法知识实体识别与发现的方法,应用于算法知识领域来解决上述问题.通过创建算法知识专家库[1],训练词向量,建立深度神经网络模型,从算法知识文本中识别和发现算法知识名称.实验结果表明,该深度神经网络模型识别算法知识的准确率高达98%,并有效发现了专家库以外的新知识点,实现了预期实验需求.  相似文献   

5.
曲晓东  李佳昊 《移动信息》2023,45(6):234-236
作为众多任务的子任务,命名实体识别的发展较为迅速,但在中文命名实体识别领域,还存在不少问题,嵌套实体就是其中一个难点。文中根据结点的传入和传出,使用了图卷积神经网络提取图特征,改善了嵌套实体的准确度,并通过使用图神经网络处理中文命名实体识别的问题,更好地融合了词典信息。另外,文中分别对两类数据集进行了实验验证,结果显示,相比其他模型,该模型有所提高。  相似文献   

6.
针对电子病历中包含着大量的非结构化数据,而计算机难以处理且无法挖掘其潜在信息的问题,文中提出了一种基于改进神经网络的医疗大数据智能处理算法,以实现对医疗命名实体的识别。该算法利用迁移学习来预训练模型,并使用双向长短期记忆网络来提取特征。通过改进自注意力机制将多个特征向量与BiLSTM模型的隐式输出相结合,对不同的电子病历命名实体给出不同的权重,可有效提取命名实体中隐藏的解码信息,进而提升模型的识别率。在CCKS公开数据集上进行的实验测试结果表明,所提算法取得了较为理想的结果,具有良好的应用价值。  相似文献   

7.
命名实体识别是自然语言处理中的热点研究方向之一,目的是识别文本中的命名实体并将其归纳到相应的实体类型中。首先阐述了命名实体识别任务的定义、目标和意义,分析提出了命名实体识别的主要难点在于领域命名实体识别局限性、命名实体表述多样性和歧义性、命名实体的复杂性和开放性;然后介绍了命名实体识别研究的发展进程,从最初的规则和字典方法到传统的统计学习方法再到现在的深度学习方法,不断地将新技术应用到命名实体识别研究中以提高性能;接着系统梳理了当下命名实体识别任务中的若干热门研究点,分别是匮乏资源下的命名实体识别、细粒度命名实体识别、嵌套命名实体识别以及命名实体链接;最后针对评判命名实体识别模型的好坏,总结了常用的若干数据集和实验测评指标,并给出了未来的研究建议。  相似文献   

8.
从医疗文本中抽取知识对构建医疗辅助诊断系统等应用具有重要意义.实体识别是其中的核心步骤.现有的实体识别模型大都是基于标注数据的深度学习模型,非常依赖高质量大规模的标注数据.为了充分利用已有的医疗领域词典和预训练语言模型,本文提出了融合知识的中文医疗实体识别模型.一方面基于领域词典提取领域知识,另一方面,引入预训练语言模...  相似文献   

9.
军事武器实体识别是军事领域本体构建的一项重要任务,基于深度学习方法实现自动军事武器实体识别能够提升军事情报信息检索的效率.为提升军事武器实体识别的精确率,面向网络公开非结构化军事新闻数据,提出了一种结合双层多头自注意力机制和BiLSTM-CRF模型的武器实体识别方法.在BiLSTM-CRF模型的基础上,采用双层自注意力...  相似文献   

10.
基于层叠条件随机场模型的中文机构名自动识别   总被引:39,自引:1,他引:38  
中文机构名的自动识别是自然语言处理中的一个比较困难的问题.本文提出了一种新的基于层叠条件随机场模型的中文机构名自动识别算法.该算法在低层条件随机场模型中解决对人名、地名等简单命名实体的识别,将识别结果传递到高层模型,为高层的机构名条件随机场模型实现对复杂机构名的识别提供决策支持.文中为机构名条件随机场模型设计了有效的特征模板和特征自动选择算法.对大规模真实语料的开放测试中,召回率达到90.05%,准确率达到88.12%,性能优于其它中文机构名识别算法.  相似文献   

11.
Named entity recognition is a fundamental task in biomedical data mining. In this letter, a named entity recognition system based on CRFs (Conditional Random Fields) for biomedical texts is presented. The system makes extensive use of a diverse set of features, including local features, full text features and external resource features. All features incorporated in this system are described in detail, and the impacts of different feature sets on the performance of the system are evaluated. In order to improve the performance of system, post-processing modules are exploited to deal with the abbrevia- tion phenomena, cascaded named entity and boundary errors identification. Evaluation on this system proved that the feature selection has important impact on the system performance, and the post-processing explored has an important contribution on system performance to achieve better re- sults.  相似文献   

12.
跨语言实体对齐旨在找到不同语言知识图谱中指向现实世界同一事物的实体.传统的跨语言实体对齐方法通常仅依靠知识图谱内部的结构信息,但实际上一些知识图谱提供的实体描述信息也可以被利用.本文提出了一种结合知识图谱的内部结构和实体描述信息共同进行跨语言实体对齐的模型.该模型首先通过训练基于知识图谱结构信息的知识向量找到可能被对齐的实体对,再结合实体描述信息利用改进后的共享参数模型选出最终的对齐实体,最后通过迭代对齐的方法重复前两个步骤找到更多的对齐实体直到训练结束.实验结果表明,与基准算法相比,本文所提模型在跨语言实体对齐任务上可以取得相对不错的结果.  相似文献   

13.
基于QR分解的MIMO信道盲辨识和盲均衡方法   总被引:1,自引:0,他引:1       下载免费PDF全文
丛进  杨绿溪 《电子学报》2004,32(10):1589-1593
针对SIMO信道的经典盲估计方法,如子空间法(SS)等,都是基于接收端样本自相关阵的特征值分解(EVD)或奇异值分解(SVD)来实现信道估计的,而基于QR分解的SIMO信道盲辨识方法是最近提出的一种性能优良的新算法.本文将该算法推广为MIMO信道盲辨识算法,并且证明了在一定的假设下,即使各路源信号为空间相关且其统计特性未知时,该算法仍然保持有效.实验结果表明这种MIMO辨识算法具有收敛速度快、计算量小、无须对噪声做额外的处理、对噪声不敏感等优点.我们还将这种算法与经典的MIMO辨识算法进行了性能比较.  相似文献   

14.
实体识别技术作为知识图谱构建的重要步骤,已广泛用于语义网络、机器翻译、问答系统等自然语言处理中,在推动自然语言处理技术落地实践的过程中起着非常关键的作用。本文根据实体识别技术的发展历程调研了现有的实体识别方法,主要为早期基于规则和词典的实体识别方法、基于机器学习的以及基于深度学习的命名实体识别方法;整理了每种实体识别方法的关键思路、优缺点和具有代表性的模型,特别对目前使用较多的基于双向长短期记忆网络(BiLSTM)模型和基于Transformer模型的实体识别方法进行了概述;介绍了目前主流的数据集以及评价标准。最后,面向未来机器类通信的语义需求,总结了实体识别技术面临的挑战,并对其未来在物联网业务数据方面的发展进行了展望。  相似文献   

15.
16.
针对由于交互行为而导致的安全威胁,以及现有完整性度量方案在度量范围和度量内容上的不足,从实体行为的角度出发,分析了实体行为之间的依赖关系,构建了实体行为依赖集合。提出了一种基于实体行为依赖关系的完整性度量方案,在实体行为依赖集合上定义了实体行为完整性度量函数,以及实体行为预期符合函数,最后给出了交互行为之间进行完整性度量和验证的具体过程。该方案从实体行为的实体完整性和数据完整性两个方面进行度量,改进了现有完整性度量方案的不足,增加了完整性验证的灵活性。  相似文献   

17.
18.
本文使用Dempster-Shafer技术讨论了递归时空信息融合的集中(或分配)算法。与Bayes算法相比,Dempster-Shafer技术具有较强的处理信息的不确定性的能力。集中算法是将所有信息汇集于中心处理器中进行处理;而分配算法则是依靠各分散的分处理器分担运算量,这样可增加计算能力。改进的算法可有效地应用于采用两种探测器的目标识别:毫米波辐射计、红外搜索和跟踪探测器。  相似文献   

19.
本文基于格型滤波器的阶递归特性和Givens旋转算法的优越数值性能,推导了两种多信道递归最小二乘格型算法。第一种算法的推导是直接基于对输入数据矩阵进行正交-三角分解,并利用Givens旋转方法来计算其正交-三角分解。首先对输入数据矩阵进行预旋转,然后重复利用单信道Givens格型算法,便可得到第二种算法。两种算法都具有优越的数值性能,尤其是对有限字长的稳健性。待估计的滤波器参数矢量可根据算法的内部变量直接提取,而无需额外的三角阵进行后向代入求解运算。两信道参数识别的计算机模拟结果验证了本文的推导。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号