首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。  相似文献   

2.
为了从海量文本中高效提取知识,提出了一种基于上下文关系和TextRank算法的中文文本关键词提取方法.首先使用传统方法提取出初始关键词,然后利用互信息筛选出在上下文中对关键词依赖程度大的词,将其作为候选关键词,最后利用TextRank算法计算出最能表达文本主题思想的特征关键词.实验结果表明,与传统方法相比,所提算法在查准率、查全率等相关指标上均有提高.  相似文献   

3.
关键词提取是文本挖掘领域中研究的核心技术之一.针对影响关键词提取质量的一词多义现象、同义词现象、文章主题准确全面表达的难点,提出了一种基于语义的关键词提取方法 KETCLC,将《同义词词林》语义词典和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算改进的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题.实验结果表明:基于KETCLC方法比基于TFIDF以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值.  相似文献   

4.
针对三角网格表示的膝关节模型,提出一种自动提取膝关节腔体模型的方法.该方法利用法线相交检测的方法识别腔体边界面片,以这些边界面片为种子,采用区域生长法分别提取股骨和胫骨上的两个内腔表面.实现内腔表面的孔洞边界检测后,进行孔洞修补和边缘光顺处理.最后通过缝合和光滑处理,完成膝关节腔体模型的自动提取和构建.  相似文献   

5.
现有的基于复杂网络的关键词提取算法在构建加权文本网络时没有考虑文本的自然语言特性,且在提取关键词时较少涉及复杂网络领域经典算法。本文引入词频分享权重,利用词频特性为节点之间的连边加权。在此基础上,基于PageRank算法,并结合人类语言习惯特性定义位置权重系数,提出了一个新的新闻关键词提取算法——LTWPR算法,综合考虑了文本网络的局部特征和全局特征。采用新浪新闻语料进行了大量实验,结果表明该算法能够快速有效的覆盖新闻作者标注的关键词,且提取效果更佳。  相似文献   

6.
基于统计的中文文本主题自动提取研究   总被引:5,自引:1,他引:5  
文本主题自动提取是一种很有实用价值的技术,它可以有效地浓缩整个web页面,解决无线网络终端由于显示屏太小而无法显示整个网页的难题。总结了目前有关文本主题提取方面的研究成果,设计了一个特征词加权函数,在此函数中考虑了词所跨的段落数因子,同时采用非线性函数描述词长因子和词所跨的段落数因子的作用,并将加权函数应用于主题自动提取。实现了一个中文主题自动提取系统原型,通过对文本集的测试验证了加权函数的有效性。  相似文献   

7.
提出一种基于BERT(bidirectional encoder representations from transformers)和TextRank关键词提取的实体链接方法。将BERT预训练语言模型引入实体链接任务,进行实体指称上下文和候选实体相关信息的关联度分析,通过提升语义分析的效果来增强实体链接的结果。采用TextRank关键词提取技术增强目标实体综合描述信息的主题信息,增强文本相似度度量的准确性,从而优化模型效果。使用CCKS2019评测任务二的数据集对模型效果进行验证,实验结果表明,所提方法的实体链接效果明显优于其他实体链接方法,能有效解决实体链接问题。  相似文献   

8.
基于建筑物的OAR模型,建立一种在单视角高分辨率航空影像中自动提取高层建筑物的策略.以建筑物垂直边缘为关键属性,结合窗户纹理和屋顶轮廓直线段属性及它们之间的关系,综合推理出建筑物的位置.实验结果表明,该方法能有效实现高层建筑物的自动提取.  相似文献   

9.
西沙群岛岛屿水边线自动提取方法研究   总被引:2,自引:0,他引:2  
以西沙群岛—宣德群岛为研究区,以WorldView-2高分辨率遥感卫星数据为数据源,在众多前人水边线提取经验的基础上,摸索出一种适用于西沙群岛一级水体的水边线自动提取方法。根据WorldView-2的八个波段光谱曲线特征分布图,创建了水边线提取的指数模型。利用该模型进行图像分割后能有效实现岛屿的水陆分离,在此基础上通过边缘检测算子运算快速地提取出岛屿水边线,最后利用掩膜技术使断续的水边线连续起来,从而得到岛屿的水边线信息。将此方法推广到西沙群岛的东岛和七连屿诸岛,结果表明该方法能有效地提取出岛屿水边线。  相似文献   

10.
基于纹理特征的遥感影像居民地自动提取方法   总被引:2,自引:0,他引:2  
基于纹理特征提取居民地信息的纹理分析方法有四类,即基于统计特征的、基于空间频率的、基于结构的、基于模型的分析法。基于纹理特征的遥感影像居民地信息自动提取方法的发展趋势是将纹理分析方法与新的算法及其他提取方式相结合,并建立居民地信息提取专家系统。  相似文献   

11.
本文提出一种基于词频统计的关键词抽取方法。利用了TextTiling方法、遗传算法和"成对比较法"进行了算法优化。  相似文献   

12.
介绍了关键词抽取的相关工作,并对基于TFIDF的关键词抽取算法进行了分析。结合词语在文本中的分布均衡程度和首次出现位置等特征,提出了一种改进的TFIDF算法,并给出了相应的计算公式。在文档数量和文档平均长度不同的3个语料上进行了对比实验。实验结果表明,结合词语分布信息的TFIDF关键词抽取方法是可行和有效的。  相似文献   

13.
Termextractionis ani mportant problemin nat-ural language processing.The goal istoextract sets ofwords with exact meaning in a collection of text[1].Automatic term extraction can be used in machinetranslation,automatic indexing,information retrievaland bu…  相似文献   

14.
全自动网页信息采集系统   总被引:1,自引:0,他引:1  
随着网络时代的快速发展,用户对搜索引擎、网页的内容和大数据处理等有了更多的要求。从海量的互联网信息中选取最符合要求的信息成为了新的热点。基于一个开源的、Java开发的、可扩展的Web爬虫项目—Heritrix,进行扩展抓取用户需要的网页,深入研究了信息采集技术。利用Heritrix的可扩展性,来实现用户的抓取。通过分析Heritrix的工作流程,模块划分以及源码设计,基于Heritrix扩展抽取面向商品信息的网页,配合HtmlParser对网页内容进行解析,有效的提取商品关键信息后存入数据库以供检索。  相似文献   

15.
基于图像特征的配准是图像配准的一个主要研究方向。传统的基于特征的配准方法一般都存在着计算量大、复杂度高以及配准精度低等问题。该文提出了一种基于互信息和单应性原理的图像自动配准方法。该方法首先利用harris算子提取角点,然后通过互信息粗匹配和RANSAC精匹配得到一对一的匹配角点对,最后根据匹配角点对计算出对应的单应矩阵来实现图像配准。为相互间满足刚体变换关系的图像之间的配准提供了一种新的思路。  相似文献   

16.
为了实现人脸图像特征的自动检测,提出了一种基于线性组合模型的人脸特征检测新方法.该方法通过原型人脸标定获取人脸特征知识,并使用模型匹配来检测目标人脸特征.在建立人脸线性组合模型的过程中,提出了局部约束光流算法,解决了有局部特征信息的人脸图像稠密对应问题.在MPI和ORL人脸数据库上进行的人脸特征检测得到的平均误差分别为96.7%和86%,该结果表明了基于线性组合模型的人脸特征检测方法是有效和实用的.  相似文献   

17.
事件抽取技术的回顾与展望   总被引:1,自引:0,他引:1  
事件抽取技术是信息抽取领域一个重要的研究方向。近年来,在自动内容抽取等评测会议的推动下,事件抽取的研究得出了一系列理论和算法,并推出一些实用的系统。详细介绍了事件抽取的主要研究任务,重点论述和分析了事件抽取的主要方法、研究现状及关键技术,最后总结事件抽取的发展历程、事件抽取技术当前面临的挑战以及未来需要努力的方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号