共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
基于衰减词共现图的多文档摘要研究 总被引:1,自引:0,他引:1
把衰减词共现图方法应用于多文档摘要.该共现图算法结合了统计和语义分析,并试图找出多文档集合的主题词及不同主题间的连接信息.通过MMR思想优化句子选择,生成既全面反映文档集主要内容又极小化信息冗余的摘要.通过DUC2005测试,该方法取得了令人满意的效果. 相似文献
3.
基于词共现图的中文微博新闻话题识别 总被引:2,自引:0,他引:2
针对传统的话题检测算法主要适用于新闻网页和博客等长文本信息,而不能有效处理具有稀疏性的微博数据,给出一种基于词共现图的方法来识别微博中的新闻话题.该方法首先在微博数据预处理之后,综合相对词频和词频增加率2个因素抽取微博数据中的主题词.然后根据主题词间的共现度构建词共现图,把词共现图中每个不连通的簇集看成一个新闻话题,并使用每个簇集中包含信息量较大的几个主题词来表示微博新闻话题.最后在微博数据集上进行实验,实现了对微博中新闻话题的识别,验证了该方法的有效性. 相似文献
4.
查询词扩展要解决两个方面的问题:一是扩展词的来源,二是如何在来源集合里挑选扩展词项。对此,首先利用检索结果聚类和排序模型获取了较高质量的相关文档集合,并以此作为扩展源;然后结合XML文档的特点,通过词项间的局部共现特征进行查询扩展。相关实验结果表明,一方面,所采用的检索结果聚类和排序模型的相关文档集扩展源具有较高的用户查询相关性,相比传统的伪反馈扩展源,具有更高的质量;另一方面,提出的结合了XML结构特点的词共现查询扩展方案能获得与用户查询意图相关的扩展信息,与初始查询和无结构的词项扩展方法相比,所提方法能够更有效地提高搜索引擎检索性能。 相似文献
5.
为解决传统词共现方法在微博中检测话题时计算复杂度大、查全率不高、查准率低的情况,提出一种基于粗糙集原理的改进词共现算法(RSCW).通过词共现关系形成词共现矩阵,并由共现矩阵找出极大完全子图作为话题簇中心,最后由粗糙集原理找出每个话题的关键词集合.在NLPIR微博内容语料库和实时获取的微博数据集上的实验结果表明,该方法能够有效地从大规模微博信息中检测突发新闻,提高突发新闻的识别率. 相似文献
6.
针对方面级情感分析存在的局部信息捕捉不充分、多个意见词混淆的问题,提出了一种基于词共现的方面级情感分析模型。该模型将方面级情感分析看成句子对任务,利用BERT获得包含上下文与方面词交互注意力的节点信息;同时,对每条数据样本构建独立的词共现图,使用门控图神经网络更新节点,加强方面词附近信息的融合,减少无关意见词的干扰;之后在自注意力层进一步融合全局信息,最终取出方面词节点送入非线性层获得分类结果。与6个基线模型的对比实验结果表明,该模型有效地提升了方面级情感分析的准确性。 相似文献
7.
词共现文本主题聚类算法 总被引:1,自引:0,他引:1
文本主题是文本聚类的关键,而文档中共现词对对文档主题的表现力非常强.因此,在对现有文本主题挖掘和共现词对抽取算法深入研究的基础上,提出了一种基于关联规则词共现的文本主题聚类算法(TCABARWC),即首先采用关联规则挖掘算法抽取文档共现词对,利用词共现提取文本主题信息,然后根据共现词对建模并实现共现词对相似度量,最后结合层次聚类算法实现文本聚类.实验结果表明,相比其他聚类算法,基于关联规则共现词对的层次聚类算法,大大降低了文本向量的维度以及算法复杂度,在聚类效率和准确性上都有显著提高,并获得了较好的聚类效果. 相似文献
8.
针对文本检索中所使用的查询词可能与文本词语不匹配而影响检索效果这一问题,提出了一种基于上下文的查询词扩展的方法,该方法根据查询词出现的上下文信息进行扩展词选择,同时考虑到查询扩展词与整个查询语句以及查询词的位置关系。实验结果表明,该方法大大提高了平均查准率。 相似文献
9.
文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难以得到很大的提升。该文以词共现分析为基础,讨论了文档主题与词的二阶关系之间的潜在联系,进而定义了词共现度及与文档主题相关度的量化计算方法,利用关联规则算法抽取出文档集上的词共现组合,提出了基于词共现组合的文档向量主题表示模型(Co-occurrence Term based Vector Space Model, CTVSM),定义了基于CTVSM的文档相似度。实验表明,CTVSM能够准确反映文档之间的相关关系,比经典的文档向量空间模型(Vector Space Model,VSM)具有更强的主题区分能力。 相似文献
10.
11.
传统的词向量构建方法基于句子内部单词间的共现概率,采用与具体任务无关的无监督训练方法实现。文中提出基于复述关系约束的词向量构建方法,用于改进知识库问答中基于词向量和词袋模型的复述问句评分。首先从复述问句库中按一定规则收集得到满足复述关系的问句对和不满足复述关系的问句对,以问句对之间的相似度不等式表示句子级的语义约束信息,再将该不等式作为约束项加入词向量训练的目标函数中。实验表明,相比传统词向量构建方法,文中方法可以提高问句间复述关系评价的准确度及知识库问答系统中问题回答的准确度。 相似文献
12.
探讨粗糙集的属性约简和图的支配集问题之间的联系。通过构造信息系统,将粗糙集的属性约简问题与图的支配集问题相联系,从而把图的支配集问题转化为粗糙集的属性约简问题。首先证明图的极小支配集恰是其构造的信息系统的属性约简,然后提出一种基于信息熵的最小支配集算法,最后通过实例验证该算法的可行性和有效性。 相似文献
13.
概念格理论是一种有效的知识表示与知识发现工具,是知识表示、知识发现和知识获取的基础。利用形式背景信息熵与属性的重要性理论,讨论形式背景的属性知识转移的特点,得到了基于形式背景的属性转移原理,给出形式背景的知识发现与应用。 相似文献
14.
针对文本分类任务中标注数量少的问题,提出了一种基于词共现与图卷积相结合的半监督文本分类方法。模型使用词共现方法统计语料库中单词的词共现信息,过滤词共现信息建立一个包含单词节点和文档节点的大型图结构的文本图,将文本图中邻接矩阵和关于节点的特征矩阵输入到结合注意力机制的图卷积神经网络中实现了对文本的分类。实验结果表明,与目前多种文本分类算法相比,该方法在经典数据集20NG、Ohsumed和MR上均取得了更好的效果。 相似文献
15.
16.
基于粒计算的属性约简改进算法 总被引:1,自引:0,他引:1
粒计算是基于问题求解、模式分类及信息处理的多层次粒结构分析方法,它是粗糙集、模糊集、数据挖掘以及人工智能等多领域交叉的一门新学科。在讨论知识粒度的基本概念和性质后,介绍了通过计算属性对约简核的重要度SigCore(A)(a)来进行信息系统约简的方法。考虑到有的信息系统没有约简核,提出了基于粒计算的约简算法的改进。改进后的算法既可以用于有约简核的系统,也可以用于没有约简核的系统。数值实验证实了算法的有效性。 相似文献
17.
18.
随着计算机互联网的迅速发展,网络的安全问题越来越受到人们的重视,传统的加密和防火墙技术已不能满足需求,入侵检测技术由此产生.虽然入侵检测系统(IDS)经过了20多年的发展,但仍然存在着许多问题需要解决.本文针对入侵检测系统的特点,提出了一个基于XML知识表示的知识库系统构架.本文采用XML来表示知识,重点阐述了如何将入侵检测系统中的规则和相关知识利用XML来描述. 相似文献
19.
20.
混合推荐是解决各种单一推荐方法缺陷的重要途径,文中提出基于图的混合推荐算法,通过在图中融合各种推荐因素进行建模,产生最终的推荐结果.利用推荐物品的内容属性计算物品间的相似度,构建最近邻图关联矩阵.根据物品的打分记录构建物品的兴趣模型,生成矢量函数.在此基础上,利用正则化框架组合关联矩阵和矢量函数,构建基于图的学习模型,实现基于图的混合推荐,并从理论上证明算法的收敛性.在MovieLens数据集和亚马逊网上商城交易数据上的对比实验验证文中算法的有效性. 相似文献