首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
在关键词抽取方法研究中,提出了多步骤的,针对任意领域的文本关键词抽取方法.该方法采用多元文法进行候选关键词抽取,提出了基于语言学特征的扩展tf/idf关键词的加权计算方法,以及能够抽取未登录词的关键词的方法和对关键词抽取进行优化的策略.首次提出了用支持向量机对最后的抽取结果进行优化.实验结果表明,该方法与单纯的tf/idf算法相比,具有更高的查准率和查全率.  相似文献   

2.
Tag-TextRank:一种基于Tag的网页关键词抽取方法   总被引:5,自引:0,他引:5  
关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题上相关的网页使用同样的标签词,一个特定的文档可以通过其标注信息找到相关文档.在此基础上,提出了利用Tag进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank.该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合.在公开语料上的实验表明,Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的推广性.  相似文献   

3.
自动关键词抽取研究综述   总被引:3,自引:1,他引:3  
赵京胜  朱巧明  周国栋  张丽 《软件学报》2017,28(9):2431-2449
自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作.探讨了关键词和自动关键词抽取的内涵,从语言学、认知科学、复杂性科学、心理学和社会科学等多个方面研究了自动关键词抽取的理论基础.从宏观、中观和微观角度,回顾和分析了自动关键词抽取的发展、技术和方法.针对目前广泛应用的自动关键词抽取方法,包括统计法、基于主题的方法、基于网络图的方法等,总结了其关键技术和研究进展.对自动关键词抽取的评价方式进行了分析,对自动关键词抽取面临的挑战和研究趋势进行了预测.  相似文献   

4.
关键词抽取是信息检索、文本分类、文本聚类以及自动文摘生成等技术的基础。在分析传统中文关键词抽取方法不足的基础上,提出一种基于多特征的中文关键词提取方法。该方法在抽取中文关键词过程中,从词频、关联度、词性以及位置等多种特征来全面考查关键词,有效地避免了传统关键词提取方法产生的偏差。实验结果表明,与传统方法相比,该方法在不同测试集上关键词提取的平均召回率均得到明显提升。  相似文献   

5.
随着Internet的发展,电子文档的数量成指数级增长,大量的文档之间存在密切的联系。将这些电子文档发布到WWW上需要有效地建立这些大量文档之间的链接,从而为用户提供一个更加友好的导航界面。对于以超文拳形式产生出来的大量文档,用手工的方式为其指定超链接,不但需要领域知识,而且将是一项极为繁重的劳动。因此,实现超文本建立的自动化是一项很有意义的工作。目前的各种超链建立方法存在着自动化程度不高和准确率低的缺点。本文基于关键词自动抽取提出了一种为文档自动建立超链接的方法。实验证明该方法取得了较好的效果。  相似文献   

6.
Text summarization and keyword extraction are two important research topics in Natural Language Processing (NLP), and they both generate concise information to describe the gist of text. Although these two tasks have similar objective, they are usually studied independently and their association is less considered. Based on the graph-based ranking methods, some collaborative extraction methods have been proposed, capturing the associations between sentences, between words and between the sentence and the word. Though they generate both text summary and keywords in an iterative reinforced framework, most existing models are limited to express various kinds of binary relations between sentences and words, ignoring a number of potential important high-order relationships among different text units. In this paper, we propose a new collaborative extraction method based on hypergraph. In this method, sentences are modeled as hyperedges and words are modeled as vertices to build a hypergraph, and then the summary and keywords are generated by taking advantage of higher order information from sentences and words under the unified hypergraph. Experiments on the Weibo-oriented Chinese news summarization task in NLPCC 2015 demonstrate that the proposed method is feasible and effective.
Key words hypergraph;document Summarization;keyword extraction;collaborative extraction


  相似文献   

7.
叶菁菁  李琳  钟珞 《计算机应用》2016,36(2):563-567
针对微博关键词抽取准确率不高的问题,提出一种基于标签优先的抽取排序方法。该方法利用微博本身具有的社交特征——标签,从微博内容集中抽取关键词。该方法首先根据微博自身建立初始词与微博之间的加权图,再将基于标签的随机游走方法应用于图中,随机游走反复跳跃到标签词节点上,经过一系列迭代得出每个词的平稳概率,并通过概率决定词的最终排序。该抽取方法根据真实的新浪微博内容进行测验,结果显示,与通过词与词的加权图来抽取关键词相比,基于标签的微博关键词抽取方法准确率提高了50%,在实际应用中能够有效提高关键词抽取的正确率。  相似文献   

8.
应用于用户兴趣建模的多文本关键词抽取研究   总被引:1,自引:0,他引:1  
寇苏玲  蔡庆生 《计算机仿真》2007,24(2):103-105,109
现有的关键词抽取算法大部分是基于单篇文档的,虽然能成功抽取出单个文章的关键词,却无法满足针对多文档的关联检索.以单文档关键词抽取为基础,引入多文本文摘中的质心概念和MMR公式并加以变形,提出并分析比较了两种多文档关键词抽取算法:对内容相近的多篇文章进行关键词抽取,并按照权重生成关键词向最,建立基于关键词向量空间的用户兴趣模型.通过对5个主题100篇文章的测试表明,使用这两种算法提取出的关键词的准确率和召回率均达到了85%左右,能够较为准确地表示用户的兴趣模型.  相似文献   

9.
基于主题特征的关键词抽取   总被引:1,自引:1,他引:1  
为了使抽取出的关键词更能反映文档主题,提出了一种新的词的主题特征(topic feature,TF)计算方法,该方法利用主题模型中词和主题的分布情况计算词的主题特征。并将该特征与关键词抽取中的常用特征结合,用装袋决策树方法构造一个关键词抽取模型。实验结果表明提出的主题特征可以提升关键词抽取的效果,同时验证了装袋决策树在关键词抽取中的适用性。  相似文献   

10.
一种基于词汇链的关键词抽取方法   总被引:26,自引:6,他引:26  
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。  相似文献   

11.
在国家加强依法治国的方针指引下,自然语言处理(NLP)和信息检索(IR)等领域与法治社会的深入结合是必然趋势。为司法工作者提供正确、全面的智能化辅助以提高工作效率,对裁判文书的关键词提取方法进行了研究。针对传统关键词提取方法的劣势,结合词语的词性、长度、词跨度、位置以及文档所属类别等多重因素,并基于图模型的TextRank算法,提出了一种改进的TF-IDF算法(IAKEF),引入信息熵、离散度、融合特征的概念,主要解决了传统算法对于词语在语义上的忽略和类间、类内信息分布上的问题,使其能够更有效地从文本中选择特征。通过对比实验,对改进算法的效果进行分析和评价,实验结果表明改进的算法与传统的算法相比在准确率、召回率及F1-Measure上均有显著的提高。  相似文献   

12.
改进型GMSM建模方法及其应用   总被引:4,自引:0,他引:4  
刘伟  田树苞 《自动化学报》1993,19(4):468-471
本文提出了一种改进的GMSM建模方法。该方法以二元插值多项式作为各层的部分描述式,利用ISM方法进行输入变量预处理,简化了原方法的整体结构。建模结果表明:改进方法对建立一般复杂过程的数学模型是有效的。  相似文献   

13.
模糊知识表示及处理是人工智能中的重要研究课题之一,模糊知识的匹配是进行模糊知识推理的关键。通过对传统的各种不同的模糊匹配方法的探讨,提出了一种改进的模糊知识匹配方法——IDM(Inscribed Diameter Matching)法。通过比较分析得出,IDM法能较好地克服传统的模糊匹配方法的一些缺点,并给出了一种融合模型,由此可使模糊推理的效率和准确性得到提高。最后,通过实例验证了IDM方法的可行性和有效性。  相似文献   

14.
针对窗口检测法在窗口间存在重复检测和检测时间代价大等问题,提出一种新的锋电位峰值检测算法。该方法以改进的窗口检测法为基础,结合阈值法对锋电位进行检测。所提出的方法在来源于英国莱斯特大学的仿真数据上进行了验证,实验表明,该方法在不影响运行时间的同时,在误报率和漏报率方面相对于阈值检测法和窗口检测法有明显降低。  相似文献   

15.
通过对一类快速跟踪系统特点的分析,提出一种可用于这类系统的改进的MAC算法.文中给出了该算法的计算公式,并且考虑了当系统的快速和加速度受到限制时的处理方法.该算法具有较强的鲁棒性.由于计算量与存储量都很小,该算法可容易地用单片机实现.最后,以一个仿真例子说明了该方法的可行性.  相似文献   

16.
为了保证电力系统安全稳定运行,需要对电网无功电流进行补偿,因效果取决于无功电流检测的精确性和实时性,在三相电网电压不对称时,传统ip-iq检测法提取的无功电流存在相位差和延时问题,影响了无功补偿的效果。为提高检测精度,提出一种改进的ip-iq无功电流检测方法。改进方法通过对三相电源电压、电流的检测,并将信号延迟算法与幅值积分器相结合,提取被测电压、电流的正序基波分量,再经过简单的坐标变换即可得到无功电流。既避免了三相电网不对称时相位差的检测,又消除了低通滤波器产生的延时问题。采用MATLAB仿真软件进行了建模仿真。仿真结果表明,改进的ip-iq无功电流检测方法明显提高了检测精度和实时性。  相似文献   

17.
局部搜索算法是求解大规模SAT问题的高效算法。经典的局部搜索算法有GSAT、WSAT、TSAT、NSAT等,但这些算法的初始解都是随机产生的。本文提出了用单纯形法产生“初始概率”(每个变量取1的概率),用“初始概率”对局部搜索算法中变量的初始随机指派进行适当的约束,使在局部搜索的开始阶段,满足的子句数大大增加,加快了收敛的速度。通过对不同规模的随机STA问题实例的实验表明,这些改进有效地提高了局部搜索算法求解SAT问题的效率。  相似文献   

18.
一种新的图像合成方法   总被引:2,自引:0,他引:2       下载免费PDF全文
提出了一种新的图像分割与合成方法。对于图像的分割,提出了新的切割图法,先是手工把一些明显属于物体和明显属于背景的像素分割出来,然后设置了新的能量函数,求它取最小值时的分割结果。对于图像的合成,提出了梯度比较法,在保留物体基本颜色特征的同时,改变了物体的光亮度,使其与新背景的光亮度一致,从而合成图像的光照效果更真实。  相似文献   

19.
一种改进的MM分词算法   总被引:28,自引:0,他引:28  
本文首先提出一种对中文句子进行分词预处理的方法,在预处理过程中就能完成分词过程中所有的数据库访问操作,这种方法可以不加修改地应用于所有机械分词算法以及消除歧义,然后在预处理的基础上实现一种改进的MM法,更加密全地遵照“长词优先”的原则,使分词系统在机械分词阶段能有比MM法更好的效果。  相似文献   

20.
We introduce a robust method for computing viscous and viscoelastic two-phase bubble and drop motions. Our method utilizes a coupled level-set and volume-of-fluid technique for updating and representing the air-water interface. Our method introduces a novel approach for treating the viscous coupling terms at the air-water interface; these improvements result in improved stability for computing two-phase bubble formation solutions. We also present an improved, “positive-preserving” discretization technique for updating the configuration tensor for viscoelastic flows, in the context of computing two-phase bubble and drop motion.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号