首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
应用于用户兴趣建模的多文本关键词抽取研究   总被引:1,自引:0,他引:1  
寇苏玲  蔡庆生 《计算机仿真》2007,24(2):103-105,109
现有的关键词抽取算法大部分是基于单篇文档的,虽然能成功抽取出单个文章的关键词,却无法满足针对多文档的关联检索.以单文档关键词抽取为基础,引入多文本文摘中的质心概念和MMR公式并加以变形,提出并分析比较了两种多文档关键词抽取算法:对内容相近的多篇文章进行关键词抽取,并按照权重生成关键词向最,建立基于关键词向量空间的用户兴趣模型.通过对5个主题100篇文章的测试表明,使用这两种算法提取出的关键词的准确率和召回率均达到了85%左右,能够较为准确地表示用户的兴趣模型.  相似文献   

2.
基于联合权重的多文档关键词抽取技术   总被引:2,自引:0,他引:2  
该文提出一种多文档关键词抽取方法,该方法提出ATF×PDF(Average Term Frequency×Proportional Document Frequency)来计算词语权重,并根据候选关键词之间的语义相似度,采用联合权重方法重新计算候选关键词的权重来抽取关键词。该方法综合考虑了词语的频率,词性以及词语之间的语义相似性等信息,实验表明,该方法能有效抽取多个文档的关键词,同基于关键词的聚类标记方法相比,其准确率提高3%,召回率提高7%,F-measure提高4.4%。  相似文献   

3.
Tag-TextRank:一种基于Tag的网页关键词抽取方法   总被引:5,自引:0,他引:5  
关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题上相关的网页使用同样的标签词,一个特定的文档可以通过其标注信息找到相关文档.在此基础上,提出了利用Tag进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank.该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合.在公开语料上的实验表明,Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的推广性.  相似文献   

4.
为提高英语试题数字资源的检索效率,提出一项基于特征项权重评估模型的英语试题关键词抽取算法。该算法主要由词同现因子、词长因子、位置因子、词频因子和特征项权重调节系数所组成。为提高该算法的通用性水平,研究还通过遗传算法对该模型的权重调节系数进行训练,并将权值优化后的算法应用于全国大学生英语四级考试试题的关键词抽取实验中。实验研究发现,研究所提出的特征项权重评估模型算法在各类英语试题的关键词抽取中均取得了良好的应用效果,平均准确率、平均召回率和平均F-measure三个方面的指标均高于TF-IDF算法和KEA算法,具有一定的应用价值。  相似文献   

5.
基于自动文本分类的关键词抽取算法   总被引:6,自引:2,他引:4       下载免费PDF全文
张虹 《计算机工程》2009,35(12):145-147
分析现有几种中文分词方法,提出一种关键词抽取算法。以词语的权重公式为中心,利用遗传算法训练、优化公式中的参数,得到一组适合中文文本的参数,提高文章子主题划分的精度。实验分析表明,该算法能将抽取系统中的命名实体有效地切分出来,准确完成抽取关键词的工作,并具有一定的通用性。  相似文献   

6.
在信息过载的背景下,如何从拥有共同主题的多篇文档中挖掘并组织核心概念及其语义连接已成为当前开放式信息抽取任务中的一项重要挑战。为此,提出了一个基于开放域抽取的多文档概念图构建模型。首先基于预定主题挖掘主题词,通过改进的TF-IDF算法对文档进行排序;然后通过共指消解、篇章权重计算、开放域抽取等一系列的方法从多篇文章中抽取出大量具有事实表达能力的三元组实例。为去除开放域方法本身的噪声以及提升信息抽取的准确率,提出一种事实过滤算法。通过该算法可有效提取置信度高且具有良好语义兼容性的显著事实知识集合,并构成多个概念子图。最后,将不同子图中等价的概念以及关系进行合并,形成一张具有主题表达能力的连通概念图。通过在signal media新闻数据集上进行验证,实验结果表明,所提出的模型能够跨文档挖掘并有效组织与特定主题相关的关键信息,形成的概念图在主题概念覆盖率、事实知识的兼容性等指标上均取得了较好的效果。除此之外,该模型对于自动文档摘要的应用也具有重要的参考价值。  相似文献   

7.
以关键词抽取为核心的文摘句选择策略   总被引:3,自引:0,他引:3  
针对面向查询的多文档自动文摘,该文提出了一种以关键词抽取为核心的文摘句选择策略。通过查询扩展的相关技术得到相关多文档集中词语的查询相关性特征,利用最大似然估计法得到语料中词语的话题相关性特征,并将这两个特征值进行特征融合得到词语的重要度以确定关键词。然后通过关键词的重要度来给候选句打分,进一步利用改进的MMR(Maximal Marginal Relevance)技术来调整候选句的得分,最后生成文摘。该文将特征融合引入到词语层面,在DUC2005的语料中测试取得了较好的效果。  相似文献   

8.
一种基于复杂网络特征的中文文档关键词抽取算法   总被引:5,自引:0,他引:5  
关键词抽取是自然语言理解领域中的重要技术之一.本文研究汉语语言所组成的自然语言网络中的复杂网络特性,并根据语言网络中的"小世界"特性和近两年复杂网络研究中部分新的理论成果,提出基于复杂网络特征的中文文档关键词抽取算法.该算法根据文档语言网络中单词结点的复杂网络特征值进行关键词抽取.实验结果表明,本文算法抽取关键词所获得的平均准确率要高于TFIDF关键词抽取算法所获得的平均准确率.  相似文献   

9.
各类应用领域的文本数据日益增多,如何从这些海量数据中迅速准确地提取核心内容,已成为关键词抽取的主要任务.提出一种基于词和文档嵌入的关键词抽取方法,通过计算单词与文档在同一维度上的向量表示,得出每个单词与文档之间的语义相似度,将其作为无向图中每个单词节点的初始权重.接着使用带语义偏向的随机游走策略,计算出每个单词以及候选词的分值.最后选取得分较高的前N个候选词作为最终关键词.在公开数据集上的实验结果表明,该算法在准确率、召回率、F值上均超过现有的主流关键词抽取方法,极大提高了关键词自动抽取的效率.  相似文献   

10.
各类应用领域的文本数据日益增多,如何从这些海量数据中迅速准确地提取核心内容,已成为关键词抽取的主要任务.提出一种基于词和文档嵌入的关键词抽取方法,通过计算单词与文档在同一维度上的向量表示,得出每个单词与文档之间的语义相似度,将其作为无向图中每个单词节点的初始权重.接着使用带语义偏向的随机游走策略,计算出每个单词以及候选词的分值.最后选取得分较高的前N个候选词作为最终关键词.在公开数据集上的实验结果表明,该算法在准确率、召回率、F值上均超过现有的主流关键词抽取方法,极大提高了关键词自动抽取的效率.  相似文献   

11.
马佩勋  高琰 《计算机应用研究》2013,30(12):3610-3613
传统的TF*PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪, 但存在误将噪声数据识别为关键短语的情况。提出了一种基于位置权重TF*PDF的两段式关键短语提取方法滤除噪声数据。该方法将传统的TF*PDF算法与位置权重相结合, 计算词汇与短语的权重, 获取候选关键短语列表, 关键短语的脉冲值则用于过滤列表中的噪声。通过关键短语识别进程根据位置信息、频率信息等将热点词汇组合成短语。TF*PDF位置权重算法同时也用于为短语分配权重, 排名前K的短语被认为是热点关键短语。以真实网络数据为基础的实验结果表明, 该提取方法与传统的TF*PDF提取方法相比, 可更好地去除关键词短语中的绝对噪声, 较好地改善了热点话题检测的准确度。  相似文献   

12.
为提高中文关键字的提取准确率,提出一种基于竞争学习网络的中文关键字提取算法。对文章进行分词,得到单个词组或短语,视其为单个神经元,将神经元输入竞争学习网络的输入层,通过竞争层上神经元的相互竞争,获得一个或几个活跃的神经元,使用合并权值及聚类分析方法得到文章的关键字。实验结果表明,该算法提取关键字的平均命中率高于词频-逆文档频率算法和传统的词频算法,鲁棒性较好。  相似文献   

13.
闫小勇  李青 《计算机应用》2018,38(6):1726-1731
针对二进制协议报文格式逆向分析中字段切分问题,提出以格式关键词为逆向分析目标,通过改进的n-gram算法和最佳路径搜索算法实现对二进制协议格式关键词的最优定界。首先,将位置因素引入n-gram算法,提出基于迭代n-gram-position的格式关键词边界提取算法,有效解决了n-gram算法中n值不易确定和固定偏移位置格式关键词的边界提取问题;然后,定义了频繁项边界命中率和左右分支信息熵为基础的分支度量,以关键词和非关键词的n-gram-position取值变化率存在差异为基础构造约束条件,提出基于最佳路径搜索的格式关键词边界选择算法,实现了对格式关键词的联合最优定界。在AIS1、AIS18、ICMP00、ICMP03和NetBios五种不同类型协议报文数据集上的测试结果表明,所提算法能够准确确定不同协议格式关键词的边界,F值均在83%以上。与VDV和AutoReEngine经典算法相比,所提算法的F值平均提升约8个百分点。  相似文献   

14.
导航型网页中往往包含了大量的噪声信息,为自动提取网页中的关键词带来了较大的困难。 为此,提出一个新的网页表示模型PIX-PAGE和导航型网页关键词自动抽取算法P-KEA。PIX-PAGE模型利用提出的区域合并算法,将一张网页分割为适当粒度的区域;然后,依据人类视觉特点,对各区域进行视觉“奇异性”量化,同时利用奇异性传递规则进一步强化关键词相关区域的视觉“奇异性”。P-KEA根据PIX-PAGE模型模型的视觉量化结果,能够较准确地找到视觉突出区域中的关键词。实验结果表明,与基于DocView模型的算法DVM相比,P-KEA的准确率平均提高了20.9%。  相似文献   

15.
王庆  陈泽亚  郭静  陈晰  王晶华 《计算机应用》2015,35(6):1649-1653
针对专业领域中科技项目的关键词提取和项目词库建立的问题,提出了一种基于语义关系、利用共现矩阵建立项目关键词词库的方法。该方法在传统的基于共现矩阵提取关键词研究的基础上,综合考虑了关键词在文章中的位置、词性以及逆向文件频率(IDF)等因素,对传统算法进行改进。另外,给出一种利用共现矩阵建立关键词关联网络,并通过计算与语义基向量相似度识别热点关键词的方法。使用882篇电力项目数据进行仿真实验,实验结果表明改进后的方法能够有效对科技项目进行关键词提取,建立关键词关联网络,并在准确率、召回率以及平衡F分数(F1-score)等指标上明显优于基于多特征融合的中文文本关键词提取方法。  相似文献   

16.
设计与实现了基于语句的汉英跨语言检索系统的关键词提取模块,关键词提取模块包括中文关键词提取和翻译转换两部分,此模块为后续的检索模块提供输入信息.其性能及效率对整个跨语言检索系统有重要影响。该文首先通过Dijkstra算法的改进方法求解分词的最短路径,实现了汉语检索语句的分词处理。然后以汉英双语词典为基础,对语法提取后的中文关键词实现了汉英翻译转换。最后提取的关键词供检索使用,实验结果表明用本文方法提取的关键词能满足检索要求。  相似文献   

17.
针对现有多文档抽取方法不能很好地利用句子主题信息和语义信息的问题,提出一种融合多信息句子图模型的多文档摘要抽取方法。首先,以句子为节点,构建句子图模型;然后,将基于句子的贝叶斯主题模型和词向量模型得到的句子主题概率分布和句子语义相似度相融合,得到句子最终的相关性,结合主题信息和语义信息作为句子图模型的边权重;最后,借助句子图最小支配集的摘要方法来描述多文档摘要。该方法通过融合多信息的句子图模型,将句子间的主题信息、语义信息和关系信息相结合。实验结果表明,该方法能够有效地改进抽取摘要的综合性能。  相似文献   

18.
基于PDF417条码的信息隐藏算法   总被引:1,自引:0,他引:1       下载免费PDF全文
针对现有隐藏方法存在嵌入信息量少、鲁棒性差、安全性低的不足,提出一种改进的基于PDF417条码的信息隐藏算法。该算法对隐藏信息进行扩频和映射处理,根据PDF417条码自身结构特点,通过微调条码中的条和空将信息隐藏其中。实验结果表明,该算法隐藏的信息在经受打印扫描和污损攻击后,仍具有较高提取率。  相似文献   

19.
基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进: 依据词义对候选关键词进行划分;再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的提取精度有了明显的提高,证明了利用粗糙数据推理的思想能有效地改善算法提取关键词的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号