周博学 《信息技术》2022,(4):130-136,142
不同于流水线方式的关系抽取方法,在实体关系联合抽取方式中虽然把实体识别和关系抽取两者结合起来,但损失部分实体特征信息.在以BERT预训练模型为核心的SpERT实体关系联合抽取模型输入阶段,融入置信度较高的词性标注和句法依存关系的先验特征;并在模型的关系抽取层中重用输入信息,为关系抽取任务提供更多的特征;在优化模型的损失...  相似文献   

针对特定的银行产品评论业务场景,从自然语言处理(natural language processing,NLP)的角度出发,将产品评论观点提取和评价任务分别转化为自然语言处理技术中的序列标注问题和情感分类问题,使用ERNIE(enhanced language representation with informative entities)模型进行微调来实现对银行产品评论中的银行名称、产品名、用户观点等实体的自动提取以及对评论文本的自动评价。通过在真实数据集上的验证,微调后的模型能够实现对银行产品评论观点文本中实体进行自动提取和评价且效果良好。  相似文献   

提出基于ERNIE序列标注的地址分级模型进行地址提取识别,将地址分级问题转换为一个序列标注的NLP问题。首先将原始待分级地址文本输入到训练好的ERNIE命名实体识别算法训练模型中,得到11级地址的粗略分级;然后应用AC自动机算法,对地址的前5级地址进行补全或纠正,再通过正则化匹配对地址后4级进行纠正。提出的模型不仅可以提高地址解析的准确率,还可以对错误地址进行纠正,最后将模型用于真实数据集,验证了方法的有效性。  相似文献   

医疗信息文本信息处理存在文本长、专业术语多、实体间关系复杂等问题,因此,提出一种基于ERNIEBi-GRU-Attention的医疗实体关系抽取模型。首先通过预训练模型ERNIE使向量获得丰富的语义信息和医疗先验知识,解决医疗专业术语问题;其次通过Bi-GRU-Attention进行语句编码,捕获有效上下文信息,有利于关系抽取;然后使用经典CRF输出实体标签;将实体标签特征和语句编码向量特征拼接进行一阶和二阶特征融合;最后通过分类器获得最终关系标签输出。通过在医疗数据集上验证,结果表明与其他模型相比,使用此模型医疗实体关系抽取的效果有所提升。  相似文献   

作战文书一直是我国军事中的一项重要任务,但是由于作战文书的特殊性和保密性,写者都会用一些带有特殊性质的东西来掩人耳目,但是作战文书非常重要,关乎作战中军事命名和实体作战的关系,稍有不慎就会理解错误,轻则会违反规定,重则会直接影响到我国的经济利益和国土安全,因此,抽取作战文书中的主要意思,弄清楚军事命名实体关系,对实现作战文书语义理解有着重大突破。作战文书分析模式虽然有很多方法,但是大多数学者都是在它的基础上结合词语规则和SVM模式进行研究,是目前最为有效的抽取方法。此类方法的使用主要是先利用语文中经常用到的词语规则整理出作战文书中连续出现并且相似度极高的实体,并从中提取出相关信息,两者相互磨合,能更好地与SVM模型兼容。其次,使用SVM模型对各个有效因素进行建立模型,抽取其中我们所需要的信息进行军事命名实体关系的研究。根据以上结果充分表明,如果单独使用SVM模型进行提取,其结果将不堪一击,但是如果优先利用词语规则进行提取,之后再结合SVM模型进行抽取,整个准确率和效率都会得到事半功倍的效果。  相似文献   

基于特征组合的中文实体关系抽取   总被引:2,自引:0,他引:2  
结合中文关系抽取的要求,以ACE2005的中文语料为数据进行关系抽取实验.在抽取中文词法、实体、句法,语法基本特征后,提出采用特征组合方法,使用支持向量机的机器学习(SVM)方法,在上关系探测和关系大类上F值分别提高了1.36%和3.97%,达到72.77和61.03,并分析出各部分组合特征的贡献.实验数据表明词语和实体组合特征对中文关系抽取的作用较大.  相似文献   

在自然语言处理解领域中,实体关系抽取作为信息抽取中的一个重要分支,旨在从自然文本中提取出两个实体之间的语义关系。大多数研究工作都是基于NLP系统的特征,特征提取工程和预处理过程十分冗杂,并且由LTP工具提取出来的特征会在模型中迭代而产生错误传播。为了避免对NLP系统的滥用,提出一种基于端到端的自注意力卷积神经网络模型来提取实体对之间的语义关系。实验结果表明,该方法在SemEval-2010 Task 8数据集上的F1值提高了约1.3%。  相似文献   

本文首先介绍了自然语言处理的概念,并给出了自然语言处理模型,与此同时,分析了依存句法的有关问题,包括其公理以及具体分析方法等,最后阐述了基于依存句法的实体关系抽取过程。  相似文献   

Aiming at the problem that the basic assumption of distant supervision was too strong and easy to produce noise data,a model of the person entity relation extraction which could automatically filter the training data generated by distant supervision was proposed.For training data generation,the data produced by distant supervision would be filtered by multiple instance learning and the method of TF-IDF-based relation keyword detecting,which tried to make the training data has the manual annotation quality.Furthermore,the model combined lexical and syntactic features to extract the effective relation feature vector from two angles of words and semantics for classifier.The experiment results on large scale real-world datasets show that the proposed model outperforms other relation extraction methods which based on distant supervision.  相似文献   

褚晶辉  董越  吕卫 《电视技术》2014,38(3):188-191
视频中包含的文字信息与视频的语义内容有很强的相关性,将视频中的文字信息提取出来进行分析处理可以有效地理解电视视频语义,从而实现对视频内容的安全监控。针对文字检测提出一种基于小波变换、角点特征图像和统计特征的有效方法,并运用基于彩色空间的文字提取方法获取二值图像,更有利于后面OCR的文字识别。  相似文献   

赵博  丁华福 《信息技术》2007,31(12):122-124
研究了基于向量空间模型的自动文本分类算法,在对现有分类算法原理深入分析的基础上,针对现有算法的不足,引入了关键向量的概念,提出了一种基于关键向量的文本分类算法,并给出了基于该算法的实验数据。  相似文献   

为了解决当前目标跟踪中目标轮廓提取不精确的问 题,在对传统GVF (gradient vector flow)snake活动轮廓模型改进的基础上,提 出一种基于变化检测和改进的GVF snake活动轮廓模型的视频目标轮廓提取算法。首先,通 过 基于t显著性检验的变化检测方 法消除背景边界的影响,并获取初始运动变化区域的临界四边形作为GVF snake的初始轮廓 。然后,对初始轮廓应用改进 的GVF snake模型以获得精确的轮廓边界。改进模型采用4方向各项异性扩散,并采用下降速 度较快的保真项系数以增强 GVF snake进入凹陷的能力,且保持对弱边界的收敛。本文方法克服了手动绘制初始轮廓的 缺点,对传统GVF snake方法进 行了改进,且空间准确度(SA)有很大提高。实验表明 ,本文方法成功分割出目标凹陷部分并对弱边界有较好的收敛效果,提高了轮廓提取的精确 度。  相似文献   

基于F-P滤波器的多波长时钟提取   总被引:1,自引:0,他引:1  
提出一种简单的全光单一链路的多波长时钟同时提取方案。利用Fabry-Perot(F-P)滤波器对波分复用(WDM)系统中多波长的归零(RZ)码信号进行时钟提取,滤波器后面接半导体光放大器(SOA)对F-P滤波器提取出的时钟进行整形处理,通过实验证实了用F-P滤波器对两路不同波长的10 Gbps信号时钟提取的可行性以及同一SOA同时处理双波长时钟的能力,两路提取时钟的单边带相位噪声分别达到-82.815和-83.072dBc/Hz@10 kHz。  相似文献   

To address the problem of extracting valuable information from massive Web pages in big data environments,a novel information extraction method based on node property and text content for massive Web pages was put forward.Web pages were converted into a document object model (DOM) tree,and a pruning and fusion algorithm was introduced to simplify the DOM tree.For each node in the DOM tree,both density property and vision property was defined and Web pages were pretreated based on these property values.A MapReduce framework was employed to realize parallel information extraction from massive Web pages.Simulation and experimental results demonstrate that the proposed extraction method can not only achieve better performance but also have higher scalability compared with other methods.  相似文献   

Key frame extraction based on visual attention model   总被引:2,自引:0,他引:2  
Key frame extraction is an important technique in video summarization, browsing, searching and understanding. In this paper, we propose a novel approach to extract the most attractive key frames by using a saliency-based visual attention model that bridges the gap between semantic interpretation of the video and low-level features. First, dynamic and static conspicuity maps are constructed based on motion, color and texture features. Then, by introducing suppression factor and motion priority schemes, the conspicuity maps are fused into a saliency map that includes only true attention regions to produce attention curve. Finally, after time-constraint cluster algorithm grouping frames with similar content, the frames with maximum saliency value are selected as key-frames. Experimental results demonstrate the effectiveness of our approach for video summarization by retrieving the meaningful key frames.  相似文献   

盲提取算法在信号处理和分析中逐步成为一项重要的方法,因为它利用信号的先验特性只提取感兴趣的信号,这样就可以节约大量的计算时间和资源.提出了时序结构信号的两步盲提取算法,第一步,利用信号所具有的广义自相关特性粗提取信号,第二步利用信号的高阶统计特性精提取信号.计算机仿真和实际的胎儿心电实验表明了提出算法的正确性,与基于广义自相关的盲提取算法相比,提出算法具有较好的性能和对时延估计偏差具有更强的健壮性.  相似文献   

The term user segmentation refers to classifying users into groups depending on their specific needs, characteristics, or behaviors. It is a key element of product development and marketing in many industries, such as the smartphone industry, which employs user segmentation to gather information about usage logs, to produce new products for such specific groups of users. However, previous studies on smartphone user segmentation have been primarily based on demographics and reported usage, which are inherently subjective and prone to skew by the observers and participants. Hamka et al. (2014) was the first to conduct a study, in which smartphone user segmentation was performed using log data collected through smartphone measurements. However, they focused only on network usage and the number of apps used, and not on characteristics or preferences. In this study, we proposed novel ways of segmenting smartphone users based on app usage sequences collected from smartphone logs. We proposed a variant of seq2seq architecture combining the advantages of previous deep neural networks: neural embedding architecture and seq2seq architecture. Furthermore, we compared the user segmentation results of the proposed method with an answer set of segmentation results conducted by domain experts. These experiments demonstrated that the proposed method effectively determines similarities between usage sequences and outperforms existing user segmentation methods.  相似文献   

