首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
朱艳辉    李飞    冀相冰    曾志高    徐啸   《智能系统学报》2019,14(4):820-830
领域命名实体识别是构建领域知识图谱的重要基础。针对专业领域语料匮乏的特点,构建基于深度学习的BiLSTM-CNN-CRFs网络模型,并提出一种反馈式K近邻语义迁移学习的领域命名实体识别方法。首先,对专业领域语料和通用领域语料分别训练得到语料文档向量,使用马哈拉诺比斯距离计算领域语料与通用语料的语义相似性,针对每个专业领域样本分别取K个语义最相似的通用领域样本进行语义迁移学习,构建多个迁移语料集。然后,使用BiLSTM-CNN-CRFs网络模型对迁移语料集进行领域命名实体识别,并对识别结果进行评估和前馈,根据反馈结果选取合适的K值,作为语义迁移学习的最佳阈值。以包装领域和医疗领域为例进行实验验证,结果表明:本文方法取得了很好的识别效果,可以有效解决专业领域语料匮乏问题。  相似文献   

2.
为了提高专业领域中文分词性能,以及弥补专业领域大规模标注语料难以获取的不足,该文提出基于深度学习以及迁移学习的领域自适应分词方法。首先,构建包含词典特征的基于深度学习的双向长短期记忆条件随机场(BI-LSTM-CRF)分词模型,在通用领域分词语料上训练得到模型参数;接着,以建设工程法律领域文本作为小规模分词训练语料,对通用领域语料的BI-LSTM-CRF分词模型进行参数微调,同时在模型的词典特征中加入领域词典。实验结果表明,迁移学习减少领域分词模型的迭代次数,同时,与通用领域的BI-LSTM-CRF模型相比,该文提出的分词方法在工程法律领域的分词结果F1值提高了7.02%,与预测时加入领域词典的BI-LSTM-CRF模型相比,分词结果的F1值提高了4.22%。该文提出的分词模型可以减少分词的领域训练语料的标注,同时实现分词模型跨领域的迁移。  相似文献   

3.
基于反馈学习自适应的中文话题追踪   总被引:7,自引:1,他引:7  
在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足。该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中。本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能。  相似文献   

4.
基于BLSTM的命名实体识别方法   总被引:1,自引:0,他引:1  
传统的命名实体识别方法直接依靠大量的人工特征和专门的领域知识,解决了监督学习语料不足的问题,但设计人工特征和获取领域知识的代价昂贵。针对该问题,提出一种基于BLSTM(Bidirectional Long Short-Term Memory)的神经网络结构的命名实体识别方法。该方法不再直接依赖于人工特征和领域知识,而是利用基于上下文的词向量和基于字的词向量,前者表达命名实体的上下文信息,后者表达构成命名实体的前缀、后缀和领域信息;同时,利用标注序列中标签之间的相关性对BLSTM的代价函数进行约束,并将领域知识嵌入模型的代价函数中,进一步增强模型的识别能力。实验表明,所提方法的识别效果优于传统方法。  相似文献   

5.
基于支持向量机的自适应图像水印技术   总被引:3,自引:0,他引:3  
提出一种基于支持向量机的自适应图像空域水印嵌入算法.由于支持向量机与人眼视觉系统在自学习、泛化和非线性逼近等方面具有极大的相似性,算法利用支持向量机模拟人眼视觉特征,结合图像的局部相关特性,自适应地确定图像的最佳嵌入位置和嵌入强度.首先,利用无导师的模糊聚类分析方法对图像各像素进行初步的聚类,为有导师的支持向量机找到分类规则;然后,从各类别中选出隶属度超过一定阈值的像素作为支持向量机分类的训练样本集,建立支持向量机的分类模型,根据此模型对图像各像素再次分类,从而确定水印的最佳嵌入位置;最后结合图像自身的局部相关性,自适应地调整水印嵌入位置的像素值.该算法在提取水印时不需要原始载体图像.实验结果表明,此算法对多种图像处理均具有很好的稳健性和图像感知质量,其性能优于相关文献上的相近方法.  相似文献   

6.
为了减少传统的命名实体识别需要人工制定特征的大量工作,通过无监督训练获得军事领域语料的分布式向量表示,采用双向LSTM递归神经网络模型解决军事领域命名实体的识别问题,并且通过添加字词结合的输入向量和注意力机制对双向LSTM递归神经网络模型进行扩展和改进,进而提高军事领域命名实体识别。实验结果表明,提出的方法能够完成军事领域命名实体的识别,并且在测试集语料上的F-值达到了87.38%。  相似文献   

7.
为了解决命名实体识别任务在面向新兴应用领域时,需要面对烦琐的模型重构过程和语料严重不足的问题,该文提出了一种基于注意力机制的领域自适应命名实体识别方法。首先,在通用领域数据集上构建了基于BERT(bidirectional encoder representations from transformers)预训练语言模型的双向长短时记忆条件随机场(BERT-BiLSTM-CRF)命名实体识别模型;接着,在古代汉语语料集上对原有模型进行微调的同时插入了基于注意力机制的自适应神经网络层;最后,在目标域内应用迁移学习方法训练模型进行对比实验。实验结果表明,自适应迁移学习方法减少了对目标域语料的依赖。该文提出的基于注意力机制的自适应神经网络模型相比通用域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了4.31%,相比古代汉语域BERT-BiLSTM-CRF模型的命名实体识别结果F1值提高了2.46%,实验表明,该文方法能够提升源域模型迁移学习的效果,并完成跨领域命名实体识别模型的构建。  相似文献   

8.
目前对于事件抽取的研究主要还在使用ACE 2005的小规模开放域事件文本语料,而对事件抽取文本语料的标注需要大量专家经验和人力,昂贵且低效,事件抽取相关的语料类型较少,规模较少,不利于深度学习的应用。为解决这个问题,该文提出一种半监督的领域事件论元抽取方法,对源自全国各地图书馆官网的文化活动语料使用模板和领域字典匹配的方法进行自动标注,然后通过人工验证确保标注准确性,利用序列标注的方法进行事件论元抽取,并针对传统BiLSTM-CRF模型的词嵌入层无法解决一词多义的问题,提出在词嵌入层采用BERT模型和基于字位置信息的词向量扩展方法的改进。实验证明,该方法在事件论元抽取上F1值达到84.9%,优于传统的事件论元识别方法。  相似文献   

9.
利用上下文信息的统计机器翻译领域自适应   总被引:1,自引:0,他引:1  
统计机器翻译系统用于翻译领域文本时,常常会遇到跨领域的问题 当待翻译文本与训练语料来自同一领域时,通常会得到较好的翻译效果;当领域差别较大时,翻译质量会明显下降。某个特定领域的双语平行语料是有限的,相对来说,领域混杂的平行语料和特定领域的单语文本更容易获得。该文充分利用这一特点,提出了一种包含领域信息的翻译概率计算模型,该模型联合使用混合领域双语和特定领域源语言单语进行机器翻译领域自适应。实验显示,自适应模型在IWSLT机器翻译评测3个测试集上均比Baseline有提高,证明了该文方法的有效性。  相似文献   

10.
为进一步提升支持向量机水印算法鲁棒性,提出基于支持向量机的NSCT域自适应图像水印算法。主要思想是根据图像自身特征生成自适应嵌入水印序列,利用模糊核聚类和支持向量机对NSCT低频系数进行分类,选取适合嵌入水印的低频系数,然后利用支持向量机建立NSCT邻域系数的关系模型,自适应完成水印嵌入。算法具有良好的不可感知性、安全性,并通过嵌入自适应水印达到全盲水印检测。实验结果表明,提出算法对高斯噪声、椒盐噪声、低通滤波、中值滤波、均值滤波、JPEG、旋转、平移和尺寸缩放有很强的鲁棒性。  相似文献   

11.
12.
P-集合与F-外嵌入信息辨识-发现   总被引:7,自引:4,他引:3  
于秀清 《计算机科学》2011,38(2):250-253,270
利用外P-集合XF,给出信息(x)的F-外嵌入信息(X)F与F-外嵌入信息依赖概念,给出F-外嵌入信息存在性定理、F-外嵌入信息依赖性定理。给出F-外嵌入系数与外嵌入度概念,并利用这些概念,给出F-外嵌入信息关系定理与F-外嵌入辩识定理。利用这些概念与结果,给出F-外嵌入信息在信息系统中的应用。  相似文献   

13.
本文提出的设计算法可以把厚度至多为是、结点数为。的图在O(。’)的面积内嵌入在活动层模型,并且可以使结点接任何预先指定的次序排成一行.此结果改进了Aggargal的 叶。勺嵌入面积m.本文还证明了存在一个结点数为。、度数为二的图,对于结点的某种排列,其平面嵌入面积的下界为 外。,).  相似文献   

14.
Word-embedding acts as one of the backbones of modern natural language processing (NLP). Recently, with the need for deploying NLP models to low-resource devices, there has been a surge of interest to compress word embeddings into hash codes or binary vectors so as to save the storage and memory consumption. Typically, existing work learns to encode an embedding into a compressed representation from which the original embedding can be reconstructed. Although these methods aim to preserve most information of every individual word, they often fail to retain the relation between words, thus can yield large loss on certain tasks. To this end, this paper presents Relation Reconstructive Binarization (R2B) to transform word embeddings into binary codes that can preserve the relation between words. At its heart, R2B trains an auto-encoder to generate binary codes that allow reconstructing the word-by-word relations in the original embedding space. Experiments showed that our method achieved significant improvements over previous methods on a number of tasks along with a space-saving of up to 98.4%. Specifically, our method reached even better results on word similarity evaluation than the uncompressed pre-trained embeddings, and was significantly better than previous compression methods that do not consider word relations.  相似文献   

15.
In the minimum linear arrangement problem one wishes to assign distinct integers to the vertices of a given graph so that the sum of the differences (in absolute value) across the edges of the graph is minimized. This problem is known to be NP-complete for the class of all graphs, but polynomial for trees—algorithms of time complexity O(n2.2) and O(n1.6) were given by Shiloach [SIAM J. Comput. 8 (1979) 15-32] and Chung [Comput. Math. Appl. 10 (1984) 43-60], respectively. We present a linear-time algorithm for finding the optimal embedding (arrangement) in a restricted but important class of embeddings called one-page embeddings.1  相似文献   

16.
Efe提出的交叉立方体(crossedcube)是超立方体(hypercube)的一种变型。但是,交叉立方体的某些性质却优于超立方体,其直径几乎是超立方体的一半。在本文中,研究了用交叉立方体互连网络来模拟超立方体互连网络,其实质是图嵌入问题,得出了以下结论:当n≤2,2n维交叉立方体CQ2n可同构嵌入两个n 1维立方体Qn 1。当n≥3,2n维交叉立方体CQ2n可同胚嵌入n 1维超立方体Qn 1。  相似文献   

17.
为了提高基于直方图平移可逆数字水印算法的一遍嵌入容量,有些研究者提出了基于多比特嵌入策略的可逆水印算法,但这些算法未与已存在的单比特多遍嵌入算法进行性能比较。分析了影响基于直方图平移可逆水印算法图像质量的原因,并对多遍单比特和一遍多比特嵌入可逆水印算法的性能进行了理论比较,指出在嵌入容量相同的条件下,多遍单比特嵌入的图像质量明显优于一遍多比特嵌入算法。对大量的标准测试图像进行仿真实验,证明了理论分析的正确性, 为设计基于直方图平移的可逆水印算法提供了参考依据。  相似文献   

18.
This paper presents a low distortion data embedding method using pixel-value differencing and base decomposition schemes. The pixel-value differencing scheme offers the advantage of conveying a large amount of payload, while still maintaining the consistency of an image characteristic after data embedding. We introduce the base decomposition scheme, which defines a base pair for each degree in order to construct a two-base notational system. This scheme provides the advantage of significantly reducing pixel variation encountered due to secret data embedding. We analyze the pixel variation and the expected mean square error caused by concealing with secret messages. The mathematical analysis shows that our scheme produces much smaller maximal pixel variations and expected mean square error while producing a higher PSNR. We evaluate the performance of our method using 6 categories of metrics which allow us to compare with seven other state-of-the-art algorithms. Experimental statistics verify that our algorithm outperforms existing counterparts in terms of lower image distortion and higher image quality. Finally, our scheme can survive from the RS steganalysis attack and the steganalytic histogram attack of pixel-value difference. We conclude that our proposed method is capable of embedding large amounts of a message, yet still produces the embedded image with very low distortion. To the best of our knowledge, in comparison with the current seven state-of-the-art data embedding algorithms, our scheme produces the lowest image distortion while embedding the same or slightly larger quantities of messages.  相似文献   

19.
The torus is a popular interconnection topology and several commercial multicomputers use a torus as the basis of their communication network. Moreover, there are many parallel algorithms with torus-structured and mesh-structured task graphs have been developed. If one network can embed a mesh or torus network, the algorithms with mesh-structured or torus-structured can also be used in this network. Thus, the problem of embedding meshes or tori into networks is meaningful for parallel computing. In this paper, we prove that for n ? 6 and 1 ? m ? ⌈n/2⌉ − 1, a family of 2m disjoint k-dimensional tori of size 2s1×2s2×?×2sk each can be embedded in an n-dimensional crossed cube with unit dilation, where each si ? 2, , and max1?i?k{si} ? 3 if n is odd and ; otherwise, max1?i?k{si} ? n − 2m − 1. A new concept, cycle skeleton, is proposed to construct a dynamic programming algorithm for embedding a desired torus into the crossed cube. Furthermore, the time complexity of the algorithm is linear with respect to the size of desired torus. As a consequence, a family of disjoint tori can be simulated on the same crossed cube efficiently and in parallel.  相似文献   

20.
对文献[5]提出的Cao方法进行了改进,提出一种新的多嵌入延迟相空间重构方法,不仅能够判断最小嵌入维数,还能够确定最佳时间延迟矢量。Cao方法的应用领域得以扩展,使得相空间重构问题可以在一个判断标准下完成。数值仿真结果表明,该改进方法在处理包含多个强烈周期成分的信号时比目前常用的单一嵌入延迟方法有明显优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号