首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
多文档关键词抽取是进行在多篇文献中找出最能反映整体主题的关键词。对几种关键词抽取算法进行了介绍,分析了各自的优缺点,在TF/PDF算法的基础上,采用文献内和文献间综合权重的方法,提出了一种基于综合权重的多  相似文献   

2.
基于主题特征的关键词抽取   总被引:1,自引:1,他引:1  
为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词抽取模型。实验结果表明提出的主题特征可以提升关键词抽取的效果,同时验证了装袋决策树在关键词抽取中的适用性。  相似文献   

3.
程岚岚  何丕廉  孙越恒 《计算机应用》2005,25(12):2780-2782
提出了一种基于朴素贝叶斯模型的中文关键词提取算法。该算法首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。实验表明,相对于传统的if*idf方法,该算法可从小规模的文档集中提取出更为准确的关键词,而且可灵活地增加表征词语重要性的特征项,因而具有更好的可扩展性。  相似文献   

4.
为提供比单纯词汇信息更高效的概念特征信息和深层语义信息,并满足面向同一文本的多检索需求,在半自动化智能检索框架中引入本体视图,提出一种基于本体视图的特征项抽取方法。此方法首先针对文本特征建立本体视图;然后结合文本信息进行特征项抽取和类型映射,得到特征项集;最后基于特征项集完成检索过程。检索结果显示,基于本体视图特征项抽取方法能改善检索系统的性能,提高检索的准确率和效率。  相似文献   

5.
基于敏感度分析的案例特征项权重算法的改进   总被引:2,自引:0,他引:2  
研究案例库特征项权重的确定方法,通过集成BP神经网络和敏感度分析,改进案例库特征项的权重确定算法,将案例库中的各特征项和决策目标项构造一个BP神经网络,经训练和学习后,依次删除输入节点,分析网络的输出对输入的敏感程度,确定各特征项的权重。并以红籽西瓜仁重的案例库对其进行测试,结果表明该算法是有效的。  相似文献   

6.
龚静  胡平霞  胡灿 《微机发展》2014,(9):128-132
TF-IDF算法是文本分类中一种常用的权重计算方法,但是TF-IDF仅仅考虑了特征项在文本中出现的次数以及该特征项在训练集中的出现频率,没有考虑特征项在各个类间的分布情况及特征项的语义信息。因此针对TF-IDF的不足提出了一种改进的TF-IDF算法,此算法既考虑了特征项在类内的分布情况又考虑了特征项的位置及长度等语义因素,能更好地反映特征项的重要性。用朴素贝叶斯分类器验证其有效性,实验结果表明该算法优于TF-IDF算法,能较好地提高文本分类的准确率。  相似文献   

7.
基于语义扩展模型的中文网页关键词抽取   总被引:1,自引:0,他引:1       下载免费PDF全文
汪洋  帅建梅 《计算机工程》2012,38(22):163-166
提出一种基于语义扩展模型、分步骤的无监督关键词抽取方法。选择词语的网页结构特征、词性、词长、TF-IDF值等特征,通过聚类算法抽取候选关键词。根据n-gram语言模型理论,引入邻接变化数等特征构建基于词的语义扩展模型,采用无监督方法将候选关键词扩展为关键词串。实验结果表明,该方法能有效改善针对未登录词及短语的抽取结果,提高中文网页关键词抽取结果的质量。  相似文献   

8.
提出一种自动文本聚类方法,应用遗传算法进行全局和快速的文本特征项选择以实现降维处理,引入概率匿名思想,根据文本中不同特征项权重的组合,基于动态规划设计一个优化的多项式时间聚类算法,将文本集划分成适当个数的分区,并对每个分区进行聚类,从而形成初始聚类,采用相同方法对所有初始聚类进行再聚类,形成最终的文本聚类。实验结果表明,该方法既能实现文本特征项的有效选择,又能较好地改善文本聚类效果和性能。  相似文献   

9.
特征项权重的计算方法是文本分类的一个重要问题,计算方法的选择关系到分类的效果。使用句子的重要度对特征项权重进行计算,并与其他几种传统的权重计算方法进行了比较。该方法能够有效地提高分类的准确度。  相似文献   

10.
一种基于复杂网络特征的中文文档关键词抽取算法   总被引:5,自引:0,他引:5  
关键词抽取是自然语言理解领域中的重要技术之一.本文研究汉语语言所组成的自然语言网络中的复杂网络特性,并根据语言网络中的"小世界"特性和近两年复杂网络研究中部分新的理论成果,提出基于复杂网络特征的中文文档关键词抽取算法.该算法根据文档语言网络中单词结点的复杂网络特征值进行关键词抽取.实验结果表明,本文算法抽取关键词所获得的平均准确率要高于TFIDF关键词抽取算法所获得的平均准确率.  相似文献   

11.
蒋效宇 《计算机工程》2012,38(3):183-186
针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。  相似文献   

12.
基于自动文本分类的关键词抽取算法   总被引:6,自引:2,他引:4       下载免费PDF全文
张虹 《计算机工程》2009,35(12):145-147
分析现有几种中文分词方法,提出一种关键词抽取算法。以词语的权重公式为中心,利用遗传算法训练、优化公式中的参数,得到一组适合中文文本的参数,提高文章子主题划分的精度。实验分析表明,该算法能将抽取系统中的命名实体有效地切分出来,准确完成抽取关键词的工作,并具有一定的通用性。  相似文献   

13.
文本自动分类中特征权重算法的改进研究   总被引:28,自引:3,他引:25  
文章研究并改进了文本自动分类中的特征权重算法。传统的特征权重算法着重于考虑频率和反文档频率等因素,而未考虑特征的类间、类内分布与低频高权信息。该文重点研究了特征的类间、类内分布,以及低频高权特征对分类的影响,并在此基础上提出了低频高权特征集的构造方法及特征权重的新算法,同时将该算法推广到多层次分类体系。实验证明该算法能有效提高分类的精确度,而且在多级分类中也能取得很好的效果。  相似文献   

14.
在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法.该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略.首次提出了用支持向量机对最后的抽取结果进行优化.实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率.  相似文献   

15.
关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特征来全面考查关键词,有效地避免了传统关键词提取方法产生的偏差。实验结果表明,与传统方法相比,该方法在不同测试集上关键词提取的平均召回率均得到明显提升。  相似文献   

16.
17.
三维模型轮廓线抽取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
虽然三维模型的轮廓线在图形交流中起着重要的作用,但由于轮廓线是视点依赖的,当物体在空间运动时,用现有算法从复杂的三维模型中抽取轮廓线需耗费大量时间,为了提高抽取轮廓线的速度,提出了两种新的抽取三维模型轮廓线算法,这两种算法是先利用轮廓线的局部极值特性来获得部分轮廓边,然后利用轮廓线的连通性,通过简单的比较运算,即可获得三维模型的外部轮廓线,实验结果表明,该两种算法都可快速获得三维模型的外围轮廓线,最后还将本算法与相关算法进行了详细的比较分析。  相似文献   

18.
导航型网页中往往包含了大量的噪声信息,为自动提取网页中的关键词带来了较大的困难。 为此,提出一个新的网页表示模型PIX-PAGE和导航型网页关键词自动抽取算法P-KEA。PIX-PAGE模型利用提出的区域合并算法,将一张网页分割为适当粒度的区域;然后,依据人类视觉特点,对各区域进行视觉“奇异性”量化,同时利用奇异性传递规则进一步强化关键词相关区域的视觉“奇异性”。P-KEA根据PIX-PAGE模型模型的视觉量化结果,能够较准确地找到视觉突出区域中的关键词。实验结果表明,与基于DocView模型的算法DVM相比,P-KEA的准确率平均提高了20.9%。  相似文献   

19.
关键词抽取方法的研究   总被引:18,自引:1,他引:17  
郑家恒  卢娇丽 《计算机工程》2005,31(18):194-196
考虑了词频和位置两个因素,并采用非线性函数和“成对比较法”相结合的方法来计算候选词的权重,最终改进了候选词权值的计算,提高了关键词抽取的精度.  相似文献   

20.
马宁  廖慧惠 《软件》2011,(12):53-54,87
摘要:本文针对传统个人信用评估体系中的不足,提出了一种基于神经网络规则抽取的个人信用评估模型。通过对已经训练好的人工神经网络隐层激活值进行聚类分析,减少搜索空间,进而抽取出理解性好、简洁的符号规则。从而产生一组可理解的描述,这组描述能最大限度的模拟已经训练好的原神经网络的推理预测行为。使得评价中的人为因素得到弱化,克服了神经网络在个人信用评估中的“黑箱”性缺陷,增强了模型的稳健性:和可理解性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号