首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难以得到很大的提升。该文以词共现分析为基础,讨论了文档主题与词的二阶关系之间的潜在联系,进而定义了词共现度及与文档主题相关度的量化计算方法,利用关联规则算法抽取出文档集上的词共现组合,提出了基于词共现组合的文档向量主题表示模型(Co-occurrence Term based Vector Space Model, CTVSM),定义了基于CTVSM的文档相似度。实验表明,CTVSM能够准确反映文档之间的相关关系,比经典的文档向量空间模型(Vector Space Model,VSM)具有更强的主题区分能力。  相似文献   

2.
尹红  陈雁  李平 《中文信息学报》2019,33(11):107-114
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明,与现有的无监督关键短语提取算法相比,该算法在F1指标上能提高2.61%~6.98%。  相似文献   

3.
异构信息网络中包含丰富的结构和语义信息,通过网络表示学习保留异构信息网络的结构和语义信息是当前研究的热点。传统的异构信息网络表示学习方法局限于利用元路径的形式保留异构信息网络中的语义信息,缺乏考虑网络中所有节点的分布情况,保留的信息不够充分。因此,本文提出一种基于生成式对抗网络(Generative Adversarial Networks, GAN)的异构信息网络表示学习方法(HINGAN),其能更好地保留网络中的结构信息和语义信息。HINGAN中通过生成模型和判别模型的对抗学习,提高表示学习的鲁棒性。基于2个真实数据集的实验结果表明,本文提出的模型与传统的异构信息网络方法相比,在节点分类和链接预测任务中的结果都有明显提升。  相似文献   

4.
事件检测任务旨在从非结构化的文本中自动识别并分类事件触发词。挖掘和表示实体的属性特征(即实体画像)有助于事件检测,其基本原理在于“实体本身的属性往往暗示了其参与的事件类型”(例如,“警察”往往参与“Arrest-Jail”类的事件)。现有研究已利用编码信息实现实体表示,并借此优化事件检测模型。然而,其表示学习过程仅仅纳入局部的句子级语境信息,使得实体画像的信息覆盖率偏低。为此,该文提出基于全局信息和实体交互信息的画像增强方法,其借助图注意力神经网络,不仅在文档级的语境范围内捕捉实体的高注意力背景信息,也同时纳入了局部相关实体的交互信息。特别地,该文开发了基于共现图的注意力遮蔽模型,用于降低噪声信息对实体表示学习过程的干扰。在此基础上,该文联合上述实体画像增强网络、BERT语义编码网络和GAT聚合网络,形成了总体的事件检测模型。该文在通用数据集ACE 2005上进行实验,结果表明实体画像增强方法能够进一步优化事件检测的性能,在触发词分类任务上的F1值达到76.2%,较基线模型提升了2.2%。  相似文献   

5.
研究表明合理考虑术语之间的关系可以提高检索系统的性能。采用共现分析的方法从文档集合中学习得到术语之间的关系,并应用到结构化文档检索中,提出了一个基于贝叶斯网络的结构化文档检索模型,给出了其拓扑结构、概率估计以及推理过程。实验表明该模型的检索性能要优于没有考虑术语之间关系的模型。  相似文献   

6.
针对金融类公告中的结构化数据难以被高效快速提取的问题,提出一种基于文档结构与Bi-LSTM-CRF网络模型的信息抽取方法。自定义一种文档结构树生成算法,利用规则从文档结构树中抽取所需节点信息;构建基于信息句触发词的局部句子规则,抽取包含结构化字段信息的信息句;将字段的结构化信息抽取看作序列标注问题,分词时加入领域知识词典,构建基于Bi-LSTM-CRF的神经网络模型进行字段信息识别。实验结果表明,该信息抽取方法可以满足多类型公告的结构化信息提取,最终的信息句与字段信息抽取的平均F1值均可达到91%以上,验证了该方法在产品业务中的可行性和实用性。  相似文献   

7.
联邦学习中由于不同客户端本地数据分布异质,在本地数据集上训练的客户端模型优化目标与全局模型不一致,导致出现客户端漂移现象,影响全局模型性能.为了解决非独立同分布数据带来的联邦学习模型性能下降甚至发散的问题,文中从本地模型的通用性角度出发,提出基于结构增强的异质数据联邦学习模型正则优化算法.在客户端利用数据分布异质的本地数据进行训练时,以结构化的方式采样子网络,并对客户端本地数据进行数据增强,使用不同的增强数据训练不同的子网络学习增强表示,得到泛化性较强的客户端网络模型,对抗本地数据异质带来的客户端漂移现象,在联邦聚合中得到性能更优的全局模型.在CIFAR-10、CIFAR-100、ImageNet-200数据集上的大量实验表明,文中算法性能较优.  相似文献   

8.
《软件》2018,(1):64-69
文本表示是自然语言处理的基础工作,好的文本表示方法对文本分类等自然语言处理任务的性能起着决定性作用。本文描述了一个结合了循环网络和卷积网络的文本表示和分类网络模型。在该模型中,我们使用词向量作为输入,用循环网络对文档进行表示,然后采用卷积网络对文档进行有效的特征提取,再采用Softmax回归分类。循环网络能够捕捉到文档的中词序信息,而卷积网络能够很好的提取出有用的特征。我们在六个文本分类任务中测试本文所描述的网络模型,都取得了比先前的方法更出色的性能。  相似文献   

9.
基于文档的自动问答,尤其是语义匹配,其目标是计算两个文本之间的相似度。这是自然语言处理中的典型任务,并且用以衡量对自然语言的理解程度。深度学习方法得益于可以自动化地学习到给定任务的最优特征表示,在许多研究中取得成功,也包括文本匹配。针对基于文档的自动问答,提出一个基于卷积深度神经网络的语义匹配模型,以便对每一对问题和文档提取特征,并据此计算它们的得分。通过问题和文档之间的交互计算,利用重叠词等文本特征,在中文开放域上的自动问答任务中取得的实际效果证明了该模型的有效性。  相似文献   

10.
罗萍  丁玲  杨雪  向阳 《计算机应用》2022,42(10):2990-2995
当前的事件检测模型严重依赖于人工标注的数据,在标注数据规模有限的情况下,事件检测任务中基于完全监督方法的深度学习模型经常会出现过拟合的问题,而基于弱监督学习的使用自动标注数据代替耗时的人工标注数据的方法又常常依赖于复杂的预定义规则。为了解决上述问题,就中文事件检测任务提出了一种基于BERT的混合文本对抗训练(BMAD)方法。所提方法基于数据增强和对抗学习设定了弱监督学习场景,并采用跨度抽取模型来完成事件检测任务。首先,为改善数据不足的问题,采用回译、Mix-Text等数据增强方法来增强数据并为事件检测任务创建弱监督学习场景;然后,使用一种对抗训练机制进行噪声学习,力求最大限度地生成近似真实样本的生成样本,并最终提高整个模型的鲁棒性。在广泛使用的真实数据集自动文档抽取(ACE)2005上进行实验,结果表明相较于NPN、TLNN、HCBNN等算法,所提方法在F1分数上获取了至少0.84个百分点的提升。  相似文献   

11.
诸多神经网络模型已被证明极易遭受对抗样本攻击。对抗样本则是攻击者为模型所恶意构建的输入,通过对原始样本输入添加轻微的扰动,导致其极易被机器学习模型错误分类。这些对抗样本会对日常生活中的高要求和关键应用的安全构成严重威胁,如自动驾驶、监控系统和生物识别验证等应用。研究表明在模型的训练期间,检测对抗样本方式相比通过增强模型来预防对抗样本攻击更为有效,且训练期间神经网络模型的中间隐层可以捕获并抽象样本信息,使对抗样本与干净样本更容易被模型所区分。因此,本文针对神经网络模型中的不同隐藏层,其对抗样本输入和原始自然输入的隐层表示进行统计特征差异进行研究。本文研究表明,统计差异可以在不同层之间进行区别。本文通过确定最有效层识别对抗样本和原始自然训练数据集统计特征之间的差异,并采用异常值检测方法,设计一种基于特征分布的对抗样本检测框架。该框架可以分为广义对抗样本检测方法和条件对抗样本检测方法,前者通过在每个隐层中提取学习到的训练数据表示,得到统计特征后,计算测试集的异常值分数,后者则通过深层神经网络模型对测试数据的预测结果比较,得到对应训练数据的统计特征。本文所计算的统计特征包括到原点的范数距离L2和样本协方差矩阵的顶奇异向量的相关性。实验结果显示了两种检测方法均可以利用隐层信息检测出对抗样本,且对由不同攻击产生的对抗样本均具有较好的检测效果,证明了本文所提的检测框架在检测对抗样本中的有效性。  相似文献   

12.
近些年,网络表示学习问题吸引了大量研究者的关注,而异构信息网络由于其丰富的结构语义信息及其广阔的应用领域,更是成为了网络表示学习领域的重中之重。目前面向异构信息网络的表示学习模型主要可以分为基于生成式模型的表示学习方法和基于判别式模型的表示学习方法,但是很少有工作同时结合两种模型进行表示学习的优化。该文提出了结合生成式模型和判别式模型的异构信息网络表示学习模型HINGAN,主要是将对抗生成思想融入异构信息网络表示学习过程中,达到优化网络表示结果的目的。该模型首先在元路径的引导下构建带权信息网络图,然后在带权图上计算更新构造的生成器和判别器参数,通过生成对抗的博弈思想来获取最大收益。在AMiner和DBLP两个真实学术图谱数据集上的实验结果表明,HINGAN在多标签分类、链路预测以及可视化方面都能比现在主流的网络表示方法取得更优的效果,并且HINGAN可以应用于大规模的异构网络数据的表示和计算。除此之外,该文还总结了已有研究成果并对未来研究可能面临的挑战进行了展望。  相似文献   

13.
Network embedding which aims to embed a given network into a low-dimensional vector space has been proved effective in various network analysis and mining tasks such as node classification,link prediction and network visualization.The emerging network embedding methods have shifted of emphasis in utilizing mature deep learning models.The neural-network based network embedding has become a mainstream solution because of its high eficiency and capability of preserv-ing the nonlinear characteristics of the network.In this paper,we propose Adversarial Network Embedding using Structural Similarity(ANESS),a novel,versatile,low-complexity GAN-based network embedding model which utilizes the inherent vertex-to-vertex structural similarity attribute of the network.ANESS learns robustness and ffective vertex embeddings via a adversarial training procedure.Specifically,our method aims to exploit the strengths of generative adversarial networks in generating high-quality samples and utilize the structural similarity identity of vertexes to learn the latent representations of a network.Meanwhile,ANESS can dynamically update the strategy of generating samples during each training iteration.The extensive experiments have been conducted on the several benchmark network datasets,and empirical results demon-strate that ANESS significantly outperforms other state-of-theart network embedding methods.  相似文献   

14.
近年来,深度学习模型已在医疗领域的预测任务上得到广泛应用,并取得了不错的效果.然而,深度学习模型常会面临带标签训练数据不足、整体数据分布偏移和类别之间数据分布偏移的问题,导致模型预测的准确度下降.为解决上述问题,提出一种基于域对抗和加性余弦间隔损失的无监督域适应方法(additive margin softmax ba...  相似文献   

15.
郭梦洁  熊贇 《计算机工程》2021,47(6):299-304
分析疾病与基因、miRNA等生物实体之间的关联是生物研究领域的重要目标,然而利用海量的数据进行生物学实验成本过高。提出一种基于网络表示学习的关联预测算法,通过多源数据集构建生物异质网络,并给出基于生成式对抗网络的异质网络表示学习算法学习鲁棒的向量表示,算法中的判别器和生成器考虑网络中的关系来捕获丰富的异质语义信息,并通过对抗学习进行训练,在此基础上通过衡量实体向量的相似性预测疾病和基因、miRNA之间的关联。实验结果表明,与HSSVM、GAN等算法相比,该算法在两个关联预测任务上均取得了最高的AUC值,具有更好的预测结果,并且通过引入更多异质数据进行训练,有效提升了算法性能。  相似文献   

16.
近年来,将卷积神经网络推广到图数据上的图卷积神经网络引起了广泛关注,主要包括重新定义图的卷积和池化操作.由于图数据只能表达二元关系的局限性,使其在实际应用中表现欠佳.相比之下,超图能够捕获数据的高阶相关性,利用其灵活的超边易于处理复杂的数据表示.然而,现有的超图卷积神经网络还不够成熟,目前尚无有效的超图池化操作.因此,提出了带有自注意机制的超图池化网络,使用超图结构建模,通过引入自注意力的超图卷积操作学习带有高阶数据信息的节点隐藏层特征,再经过超图池化操作选择并保留在结构和内容上的重要节点,进而得到更准确的超图表示.在文本分类、菜肴分类和蛋白质分类任务上的实验结果表明:与目前多种主流方法相比,该方法均取得了更好的效果.  相似文献   

17.
针对现有全局光照图像重建高频特征效果模糊的问题,提出一种基于生成对抗模型及光路分解的全局光照绘制网络,以各类图形辅助属性(法线、深度、粗糙度等)为主要输入,学习光照传输的抽象表示并编码,用于推理光照图像。第一,将光照解耦为漫反射和镜面反射两部分,设计独立的生成对抗网络端到端地学习和推理光照子图,避免混频光照的相互干扰,保证高频细节的清晰重现。第二,使用自编码器作为绘制网络的基本结构,添加多尺度特征融合模块用于不同感受野下的特征合成,以促进阴影、镜面反射等复杂特效的有效表达。第三,使用旋转损失和特征损失两种增强的对抗损失函数,增加网络训练的稳定性。实验结果表明,与现有降噪或图像生成模型相比,该方法能够有效地生成视觉上更逼真的全局光照图像,保留更多高频细节,PSNR指标提升8%~20%。  相似文献   

18.
网络表示学习旨在将网络中的节点表示成低维稠密且具有一定推理能力的向量,以运用于节点分类、社区发现和链路预测等社交网络应用任务中,是连接网络原始数据和网络应用任务的桥梁。传统的网络表示学习方法都是针对网络中节点和连边只有一种类型的同质信息网络的表示学习方法,而现实世界中的网络往往是具有多种节点和连边类型的异质信息网络。而且,从时间维度上来看,网络是不断变化的。因此,网络表示学习的研究方法随着网络数据的复杂化而不断变化。对近年来针对不同网络的网络表示学习方法进行了分类介绍,并阐述了网络表示学习的应用场景。  相似文献   

19.
深度学习现在是计算机视觉和自然语言处理的热门话题.在许多应用中,深度神经网络(DNN)的性能都优于传统的方法,并且已经成功应用于调制分类和无线电信号表示等任务的学习.近几年研究发现深度神经网络极易受到对抗性攻击,对“对抗性示例”缺乏鲁棒性.笔者就神经网络的通信信号识别算法的鲁棒性问题,将经过PGD攻击的数据看作基于模型...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号