首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战。  相似文献   

2.
关键词提取是指是从文本中提炼出能够概括文献内容的词或词组。关键词提取是文本处理中的一项十分重要的关键技术,针对关键词提取受分词效果影响以及统计偏差等问题,提出了一种融合多特征的中文关键词提取方法。该方法通过考虑词频、词长、词性、位置、互联网词典、停用词典等6方面因素对关键词权重的影响,分别对这些因素提出了量化方案,再结合线性加权、组合词生成与过滤等技术进行关键词提取。文章实验中,采用从中国知网下载的包括环境、信息科学、交通、教育、经济、文史、化学、医药、农业、政治共10个类别论文的数据,论文中都含有作者自拟的关键词。实验结果表明,在候选词数量N为5的情况下,其关键词提取的近似匹配准确率为54.8%,召回率为65.1%。该方法不仅解决了关键词提取中受到分词影响而导致的召回率低的问题,而且能够针对文本中出现频率不高但是对于文本意义表达很重要的词进行提取,其提取的关键词在表达文本含义的方面要明显优于基于统计的方法,实用价值更大。  相似文献   

3.
许晓昕  李安贵 《微机发展》2006,16(3):122-123
随着Internet的普及,即时通讯软件(IM software)也就是网络聊天软件越来越多地服务于人们的日常生活.利用聊天双方的聊天信息来提供更好的服务成为研究者们的重要课题,而如何提取聊天文本中的关键词又成为此类研究的重点.聊天文本不同于普通的文章,它是一种动态输入的文本,对于这种文本,传统的TFIDF算法存在着缺陷.文中针对传统TFIDF在处理此类文本时的不足之处,利用一个按主题分类的历史缓存来提高TFIDF算法对于这类文本的处理能力.  相似文献   

4.
面向文本的关键词自动提取一直以来是自然语言处理领域的一个关键基础问题和研究热点.特别是,随着当前对文本数据应用需求的不断增加,使得关键词提取技术进一步得到研究者的广泛关注.尽管近年来关键词提取技术得到长足的发展,但提取结果目前还远未取得令人满意的效果.为了促进关键词提取问题的解决,本文对近年来国内、外学者在该研究领域取得的成果进行了系统总结,具体包括候选关键词生成、特征工程和关键词提取三个主要步骤,并对未来可能的研究方向进行了探讨和展望.不同于围绕提取方法进行总结的综述文献,本文主要围绕着各种方法使用的特征信息归纳总结现有成果,这种从特征驱动的视角考察现有研究成果的方式有助于综合利用现有特征或提出新特征,进而提出更有效的关键词提取方法.  相似文献   

5.
关键词提取技术是信息检索和文本分类领域的基础与关键技术之一。首先分析了TFIDF算法中存在的不足,即IDF(Inverse Document Frequency)权值中没有考虑特征词在类内以及类别间的分布情况。因此,原有的TFIDF方法会出现有些不能代表文档主题的低频词的IDF值很高,而有些能够代表文档主题的高频词的IDF值却很低的情况,这会导致关键词提取不准确。通过增加一个新的权值,即类内离散度DI(Distribution Information)来增加关键的特征词条的权重,提出了一种新的算法DI-TFIDF。实验中使用的是搜狗语料库,选择其中的体育、教育和军事3类文档各1000篇作为实验的语料库,分别用基于传统TFIDF方法和基于DI-TFIDF方法提取关键词。实验结果表明,所提出的DI-TFIDF方法提取关键词的准确度要高于传统的TFIDF算法。  相似文献   

6.
本文主要研究关键词提取算法,在分析可能影响关键词提取的词语各种属性并将其量化的基础上,提出并实现了一种将分词与词性标注、文本预处理、线性加权算法、组合词生成与过滤、合并候选关键词等集成到一个完整框架中的模型算法。  相似文献   

7.
针对汽车造型智能设计领域中如何有效提取用户需求的问题,提出一种融合多特征TFIDF(词频-逆向文件频率)文本分析的汽车造型需求提取方法.首先,通过基于互信息与边界自由度获取大量未登录的专业词汇,优化和修正简单分词后的词汇;然后针对经典TFIDF算法的局限性,引入词汇特征因素与情感特征因素,获取用户需求特征候选集;最后根...  相似文献   

8.
程岚岚  何丕廉  孙越恒 《计算机应用》2005,25(12):2780-2782
提出了一种基于朴素贝叶斯模型的中文关键词提取算法。该算法首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。实验表明,相对于传统的if*idf方法,该算法可从小规模的文档集中提取出更为准确的关键词,而且可灵活地增加表征词语重要性的特征项,因而具有更好的可扩展性。  相似文献   

9.
本文将复杂网络理论应用于文本挖掘技术,构造基于词汇共现性关系的词汇概念复杂网络,对文本词汇的重要性指标进行计算分析,挖掘文本中主题的关键词。在计算词汇重要性指标时,综合考虑目标词汇的频率以及其相邻节点的贡献度。通过实验对比,证实本文网络节点评价指标与基于加权度和加权集聚系数的综合指标相比具有优越性。此外,本文通过复杂网络社区合并的手段,发现了关键节点之间的网络拓扑关系,即核心网络。通过分析核心网络,可以获得关键词和文本主题的对应关系,为进一步的文本分析提供有效的理论基础。  相似文献   

10.
为了提高关键词提取的准确率,在利用文本中相同词的前后词共现频率识别组合词的基础上,提出一种基于改进词语统计特征的朴素贝叶斯关键词提取算法。该算法选取词语的词长、词性、位置、TF-IDF值作为词语的特征项,改进了统计词长、TF-IDF和词频的方法,使长词和TF-IDF大的词具有更高的概率,而在统计词频时,考虑了词语之间包含与被包含的关系。然后,采用朴素贝叶斯模型对标记好关键词的文本进行训练,获得各个特征项出现的概率,用来提取文本的关键词。实验表明,与传统基于词频和决策树C4.5的关键词提取算法相比,采用该方法提取的关键词具有更高的准确率和可读性。  相似文献   

11.
一种基于TFIDF的网络聊天关键词提取算法   总被引:2,自引:0,他引:2  
随着Internet的普及,即时通讯软件(IM software)也就是网络聊天软件越来越多地服务于人们的日常生活。利用聊天双方的聊天信息来提供更好的服务成为研究者们的重要课题,而如何提取聊天文本中的关键词又成为此类研究的重点。聊天文本不同于普通的文章,它是一种动态输入的文本,对于这种文本,传统的TFIDF算法存在着缺陷。文中针对传统TFIDF在处理此类文本时的不足之处,利用一个按主题分类的历史缓存来提高TFIDF算法对于这类文本的处理能力。  相似文献   

12.
基于同义词链的中文关键词提取算法   总被引:2,自引:2,他引:2       下载免费PDF全文
针对传统中文关键词提取对语义和同义词的不重视而导致的精确度和召回率低的问题,提出基于同义词链的中文关键词提取算法。利用上下文窗口和消歧算法解决词语在上下文中的语义问题,利用文档中的同义词构建同义词链,简化候选词的选取。根据同义词链的特征,得到相应的权重计算公式,对候选词进行过滤。实验结果表明,该算法在同义词较多的文档中精确度和召回率有较大的提高,平均性能也有明显改善。  相似文献   

13.
随着近些年深度学习的兴起,词语在计算机中的表示有了重大突破;而长期以来关键词提取算法均以词语作为特征进行计算,效果并不理想。因此,本文提出了一种基于深度学习工具word2vec的关键词提取算法。该算法首先使用word2vec将所有词语映射到一个更抽象的词向量空间中;然后基于词向量计算词语之间的相似度,最终通过词语聚类得到文章关键词。实验表明该算法对于篇幅长文章的关键词提取的准确率要明显高于其他算法。  相似文献   

14.
基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进: 依据词义对候选关键词进行划分;再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的提取精度有了明显的提高,证明了利用粗糙数据推理的思想能有效地改善算法提取关键词的性能。  相似文献   

15.
蒋效宇 《计算机工程》2012,38(3):183-186
针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。  相似文献   

16.
基于分离模型的中文关键词提取算法研究   总被引:4,自引:0,他引:4  
关键词提取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。通常所说的关键词实际上有相当一部分是关键的短语和未登录词,而这部分关键词的抽取是十分困难的问题。该文提出将关键词提取分为两个问题进行处理关键单词提取和关键词串提取,设计了一种基于分离模型的中文关键词提取算法。该算法并针对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。实验表明,相对于传统的关键词提取算法,基于分离模型的中文关键词提取算法效果更好。  相似文献   

17.
相较于传统的依托词汇频率大小进行关键字提取技术,TextRank算法能够考虑词汇节点之间的相似性信息,却仍忽略了词汇上下文信息以及文章的语义结构等。在节点图权重迭代的基础上,本文利用文本上下文词汇的关联规则信息,引入关联熵的概念,自适应调整阻尼系数和滑动窗口大小,更贴近文本词汇的实际语义情况,能够较好地处理低词频和新词汇信息。实验表明,相较于TFIDF和TR等算法,本文算法在处理关键字提取时能够达到更准确的效果。  相似文献   

18.
基于语义的中文文本关键词提取算法   总被引:1,自引:0,他引:1       下载免费PDF全文
为克服传统关键词提取算法局限于字面匹配、缺乏语义理解的缺点,提出一种基于语义的中文文本关键词提取(SKE)算法。将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。实验结果表明,与基于统计特征的关键词提取算法相比,SKE算法提取的关键词能体现文档的主题,更符合人们的感知逻辑,且算法性能较优。  相似文献   

19.
为提高中文关键字的提取准确率,提出一种基于竞争学习网络的中文关键字提取算法。对文章进行分词,得到单个词组或短语,视其为单个神经元,将神经元输入竞争学习网络的输入层,通过竞争层上神经元的相互竞争,获得一个或几个活跃的神经元,使用合并权值及聚类分析方法得到文章的关键字。实验结果表明,该算法提取关键字的平均命中率高于词频-逆文档频率算法和传统的词频算法,鲁棒性较好。  相似文献   

20.
一种利用BC方法的关键词自动提取算法研究   总被引:5,自引:0,他引:5  
通过分析几种常见关键词自动抽取方法的特点和不足,以KeyGraph算法思想为基础,构建词语网络并利用网络节点中心度(Betweenness Centrality)理论,提出了一种新的自动抽取关键词算法.通过分析和比较,新算法提取的关键词更能体现文档内容,并且相对低频而意义重要的关键词也能被提取出.最后,通过与TF和TFIDF算法的比较和分析,获得了令人满意的结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号