首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
基于词汇链的中文新闻网页关键词抽取方法   总被引:1,自引:0,他引:1  
词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索。文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法。该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词。对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量。  相似文献   

2.
蒋效宇 《计算机工程》2012,38(3):183-186
针对生成文摘内容不完整的问题,利用相邻词的共现频率进行未登录词识别,提出一种通过词汇链的构建进行中文关键词抽取和文摘生成的算法,并给出一种采用《知网》为知识库构建词汇链的方法。通过计算词义相似度构建词汇链,结合词汇所在词汇链的强度、信息熵和出现位置等属性,进行关键词抽取和句子重要度计算。实验结果表明,与已有算法相比,该算法能够提高生成摘要的召回率和准确率。  相似文献   

3.
邓箴  包宏 《计算机与应用化学》2012,29(11):1384-1386
提出了一种基于词汇链抽取,文法分析的抽取文本代表词条的多文档摘要生成的方法。通过计算词义相似度构建词汇链,结合词频与位置特征进行文本代表词条成员的选择,将含有词条权值高的句子经过聚类形成多文档文摘句集合,然后进行质心句的抽取和排序,生成多文档文摘。该方法不仅考虑了词汇之间的语义信息,还考虑了词条对文本的代表成度,能够改善文摘句抽取的性能。实验结果表明,与单纯的由关键词确定文摘的方法相比,召回率和准确率都有不少的提高。  相似文献   

4.
刘端阳  王良芳 《计算机科学》2013,40(12):264-269,291
针对影响关键词提取质量的一词多义现象、同义词现象以及文章主题准确全面表达的难点,提出了一种基于语义的关键词提取算法KESELC,利用《同义词词林》语义词典和统计信息计算语义相似度和相关度,进而得出语义扩展度及其计算方法,将语义扩展度和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题。通过实验对比分析,验证了基于KESELC的方法比基于TFIDF的方法以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值。  相似文献   

5.
关键词自动标引的最大熵模型应用研究   总被引:37,自引:0,他引:37  
关键词是文档管理、文本聚类/分类、信息检索等领域可利用的重要资源,因此该文提出了利用最大熵模型进行自动标引的技术.最大熵模型为一个成熟的数学模型,已经应用到计算语言学的各个领域.然而它的应用非常灵活,针对标引任务和现有资源的实际情况,作者首先建立了最大熵模型的特征集合,然后提出了三种试验方法,并给出了相应的试验结果,最后针对最大熵模型在关键词自动标引任务中的应用做了有益的分析和探讨.该研究对于关键词标引研究以及最大熵在其他领域中的应用将有所启示.  相似文献   

6.
为提供准确且更贴近日常用语的关键词,针对视频弹幕内容提出一种基于TI-RANK(TTF-ICDF-DWText Rank)的词频词义相结合的关键词提取模型。将标题内容进行分类得到标题的关键信息,将该信息用于词频提取构建TTF算法;进一步考虑词频与篇章数对提取效果的影响,通过分段函数构建ICDF算法;引入语义维度信息并利用中文拼音作为编辑距离的计算单元构建DWText Rank模型。实验结果表明,TI-RANK模型提取关键词的F1值达到0.8以上,相较传统TF-IDF和Text Rank算法提高了约20%。为更合理评价关键词提取的准确率,按照关键词重要程度降序排列定义三级梯度评价标准,该标准能够更好体现出排序靠前关键词的正确性对准确率的影响。  相似文献   

7.
从特征选择、局部区域划分和词汇语义相似性计算入手,利用随机词汇迭代模型(random terms iterativemodel,RTIM)进行海量兴趣点(point of interest,POI)文本分类.通过词汇频度、集中度和离散度方法筛选出特征词汇;依据文本与各POI类别间的相似度进行局部区域划分;在每个局部区域内基于词汇在文本中的排列顺序构建词频向量,基于词频向量中词频的随机删除和重构,获取特征映射矩阵;通过特征映射矩阵将文本转为特征向量,并采用SVM分类器进行POI文本分类.实验证明,该方法有效提升了POI文本分类准确性和覆盖率.  相似文献   

8.
刘金岭  刘丹  周泓 《计算机工程》2012,38(10):67-69
提出一种基于知网的中文短信文本词汇链抽取方法。根据知网的语义关系,利用相同语义类给出上下文词汇项信息,构造多条词汇链,表达短信文本的多条叙事线索,从中抽取富含短信文本信息的词汇链,表达短信文本的语义信息,采用词汇链的关键词集合进行文本分类。实验结果证明,该方法的抽取准确率较高,文本分类速度较快。  相似文献   

9.
关键词提取技术是语料库构建、文本分析处理、信息检索的基础.采用传统的TFIDF算法提取关键词时,主要依据词频计算权重,而未考虑文本特征项的影响,由于对词频的过度依赖,导致其提取关键词的准确性不高.针对这个问题,本文根据关键词的特性,引入位置和词性作为影响因子,对TFIDF算法权重重新进行了计算和排序,从而改进该算法,并利用Python语言完成了实现.实验结果表明,采用该改进方法提取关键词,其召回率、准确率、F因子与传统方法相比均得到明显提升.  相似文献   

10.
陈立 《计算机系统应用》2015,24(12):277-282
利用文本分类技术对设备进行分类目前遇到的最大困难是,信息处理量的急剧增加造成分类过程中设备特征项维数的大幅增加,使得对设备的分类变得愈加困难,且效率愈来愈低.而关键词提取是提高文本分类效率的常用方法.根据设备文本描述的特点,以预先假定的初始关键词及其特征项词频来构建向量空间模型(VSM),在此基础上利用K-means算法将文本中的关键词提取出来.实验表明,基于K-means的关键词提取不仅大幅度地提高了设备分类效率,且分类准确性也得到了提高.  相似文献   

11.
温馨  陈群  娄颖 《计算机工程》2011,37(20):36-38
为提高XML信息检索的查询准确率,提出一种基于词项扩展的XML信息检索反馈技术.利用词项所在节点的语义权重、词项与查询词间的相邻频度、共现程度,评估词项权重并排序,取权重较大的词项对初始检索词进行扩展,给出各因子的计算方法.在Wikipedia2009数据集上的实验结果表明,扩展后的查询准确率较高.  相似文献   

12.
提出一种利用概念格发现领域关键词间的语义关系的方法,定义了关键词间两种语义关系:相似关系和蕴含关系;关键词根据其出现频率高低分为高频关键词、中频关键词,低频关键词,进而形成关键词的语义空间.为发现高层次主题间语义关系提供了条件,也为形成语义网络奠定了一定的基础.在上海某服装搜索引擎项目中取得了很好的效果,可以直接应用于搜索引擎中的相关搜索和关键词扩展.  相似文献   

13.
基于查询扩展词条加权的文本检索研究   总被引:1,自引:1,他引:0  
本文分析了关键词检索文本,由于其查询词没有扩展导致检全率低;而概念检索文本虽然部分有检索词扩展,但是查询词权重与原查询词没有区分.为此,本文利用词条间的语义相似度,提出一种查询扩展词条权重计算方法--展开减小法,并将查询词以及扩展词经展开减小法计算权重后构建向量空间模型检索文本.实验表明,构建的检索模型检索文本,其综合...  相似文献   

14.
刘晓亮 《计算机应用》2012,32(11):3026-3029
针对互联网论坛话题追踪,提出一种基于维基百科知识的军事话题追踪方法。该方法首先以基于维基百科的词语语义相关度与共现统计方式,同时结合军事主题与帖子的结构特征建立文本图中节点间的关系边及其权重;接着以改进的基于图的链接挖掘方法选取帖子关键词;最后通过计算话题与文本关键词列表间的语义相关度实现话题追踪。实验表明,该方法无需大规模样本训练与语义知识的手工构建,能够有效解决语义稀疏对追踪所带来的负面影响,较好地追踪到军事话题帖。  相似文献   

15.
Keyword search enables web users to easily access XML data without understanding the complex data schemas. However, the native ambiguity of keyword search makes it arduous to select qualified relevant results matching keywords. To solve this problem, researchers have made much effort on establishing ranking models distinguishing relevant and irrelevant passages, such as the highly cited TF*IDF and BM25. However, these statistic based ranking methods mostly consider term frequency, inverse document frequency and length as ranking factors, ignoring the distribution and connection information between different keywords. Hence, these widely used ranking methods are powerless on recognizing irrelevant results when they are with high term frequency, indicating a performance limitation. In this paper, a new searching system XDist is accordingly proposed to attack the problems aforementioned. In XDist, we firstly use the semantic query model maximal lowest common ancestor (MAXLCA) to recognize the returned results of a given query, and then these candidate results are ranked by BM25. Especially, XDist re-ranks the top several results by a combined distribution measurement (CDM) which considers four measure criterions: term proximity, intersection of keyword classes, degree of integration among keywords and quantity variance of keywords. The weights of the four measures in CDM are trained by a listwise learning to optimize method. The experimental results on the evaluation platform of INEX show that the re-ranking method CDM can effectively improve the performance of the baseline BM25 by 22% under iP[0.01] and 18% under MAiP. Also the semantic model MAXLCA and the search engine XDist perform the best in their respective related fields.  相似文献   

16.
针对词汇语义的差异性对TextRank算法的影响进行了研究,提出一种基于词向量与TextRank的关键词抽取方法。利用FastText将文档集进行词向量表征,基于隐含主题分布思想和利用词汇间语义性的差异,构建TextRank的转移概率矩阵,最后进行词图的迭代计算和关键词抽取。实验结果表明,该方法的抽取效果相比于传统方法有明显提升,同时证明利用词向量能简单而有效地改善TextRank算法的性能。  相似文献   

17.
新的关键字提取算法研究   总被引:2,自引:0,他引:2  
传统的关键字提取算法往往是基于高频词提取的,但文档中的关键字往往并不都是高频词,因此还需要从非高频词集中找出关键字.把一篇文档抽象为一个图:结点表示词语,边表示词语的同现关系;并基于文档的这种拓扑结构,提出了一种新的关键字提取算法,并和传统的关键字提取算法作了比较,在精确率,覆盖率方面均有不错的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号