首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 140 毫秒
1.
基于概念统计的英文自动文摘研究   总被引:6,自引:2,他引:6  
文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分布划分意义块,以意义块为单位抽取文摘,初步解决多主题文章的文摘结构不平衡问题。该文主要介绍概念层次树的构造,主题概念的抽取步骤,句子重要度的计算和意义块的划分算法。测试表明该文提到的方法比传统的基于词频统计的方法有更高的召回率与精确率。  相似文献   

2.
基于概念向量空间模型的中文自动文摘系统   总被引:1,自引:0,他引:1  
文章提出了一种基于hownet提取出词语的词义,用词语的词义代替传统的词形频率统计方法,并基于词义排歧建立主题语义概念向量空间模型。通过对抽取出的语句进行句子相似度的计算提高文摘精确度,设计实现了一个中文自动文摘系统。  相似文献   

3.
基于HowNet概念获取的中文自动文摘系统   总被引:11,自引:3,他引:11  
本文提出了一种中文自动文摘的方法。不同于其它的基于词频统计的一般方法,运用概念(词义)作为特征取代词语。用概念统计代替传统的词形频率统计方法,建立概念向量空间模型,计算出句子重要度,并对句子进行冗余度计算,抽取文摘句。对于文摘测试,采用两种不同的方法进行测试:一是用机器文摘和专家文摘进行比较的内部测试;二是对不同文摘方法进行分类,通过对分类正确率的比较的外部评测方法。  相似文献   

4.
基于关联矩阵的主题概念选择算法研究   总被引:1,自引:0,他引:1  
主题概念抽取是文本自动处理中的一项重要工作。以往主题概念抽取中的加权算法较少考虑到主题概念间的相关信息,在一定程度上影响了主题概念抽取的质量。该文提出了一种基于关联矩阵的主题概念选择算法。该算法在概念语义关联矩阵的基础上,通过对矩阵中概念相关向量与文本向量距离的计算,得出候选主题概念相对于待标引文档的重要度,最后依据该重要度完成文本主题概念的选择。实验显示,该算法产生的自动标引结果比单纯按权重排序的方法更能表现文本的主题。  相似文献   

5.
基于明确语义分析的自动文摘算法   总被引:2,自引:0,他引:2  
陈燕  龙建勋 《计算机工程》2011,37(3):183-185
不同于传统采用统计学习方式的自动文摘算法,利用维基百科等知识密集的资源建立概念空间,在该空间中对词语进行语义解释,进而解释词语及文本片段的语义,由此提出一种基于明确语义分析的自动文摘算法。实验结果证明,相比传统算法,该算法精度更高,用更少的句子即可获得更高的信息覆盖率。  相似文献   

6.
蒋建慧  陈玉泉 《计算机仿真》2009,26(12):122-125
随着网络资源的快速膨胀,海量的文本自动处理任务面临着巨大的挑战,而文本主题抽取就是文本自动处理领域中的一项重要研究课题.针对词语量化关系的主题概念抽取算法,首先在词聚类的基础上建立概念向量空间模型,由知网中词语相似度,加权计算出概念权重;然后利用词典中词语之间量化关系,通过对概念的相关向量和权重的向量乘积得到每个概念的主题重要度;最后依据重要度抽取出反映文本主题的概念来.实验证明,上述与传统的词频统计相比,准确率更高.  相似文献   

7.
传统自动文摘方法并没有在语义层面上处理问题,所以近年来涌现出基于语义的理解分析法。本文提出一种基于本体的自动文摘方法,该方法采用领域本体将词特征映射为概念特征,然后调整特征词和文本语句权值,最后提取出合适的句子组合成文摘。该方法在统计的基础上加入语义分析,从而能够更精确地得到文本的主要内容,更方便阅读。在对竹藤领域的文本进行自动文摘实验后证明,该方法相比于传统自动文摘方法在文摘内容的准确度上有了较大的提高。  相似文献   

8.
基于主题概念抽取的多文档文摘方法   总被引:3,自引:2,他引:1       下载免费PDF全文
提出一种应用于多文档文摘的有效概念抽取方法。利用WordNet中词语的同义和上下义关系进行语义消歧和概念树构造,通过概念优化算法进行主题概念抽取,建立概念向量空间模型并通过最大边缘相关方法得到文摘句。采用语义概念统计来替代传统的词形统计,能更准确地提取文档中的重要信息。DUC2005的评测结果表明,该方法比传统方法能获得更好的效果。  相似文献   

9.
一种英文自动摘要方法   总被引:1,自引:0,他引:1       下载免费PDF全文
随着在线网页的指数型增长,自动摘要技术越来越受到人们的关注。针对抽取型摘要很少对文本进行语义分析、抽取出的句子可能偏离主题等缺陷,结合单文本摘要的特点,提出了一种英文自动摘要方法TLETS(TF-ISF and LexRank based English Text Summarization)。该方法采用WordNet对向量空间模型的特征词进行概念统计,计算每个概念词的TF-ISF值作为其权值,最后计算每个句子的LexRank权值并提取出权值最高的几个句子作为摘要。实验结果表明,TLETS方法能很好地得到摘要结果。  相似文献   

10.
王萌  徐超  李春贵  何婷婷 《计算机工程》2011,37(12):158-160
为解决词频矩阵的词频维数过大和矩阵过于稀疏的问题,提出一种子主题区域划分的多文档自动文摘方法。使用知网进行概念获取,建立概念向量空间模型,代替传统的词频向量空间模型。在概念向量空间模型的基础上,利用一种改进的层次分割法对文档集合进行子主题划分,从各个子主题中抽取出满足一定数量的句子作为文摘。实验结果验证了该方法的有效性。  相似文献   

11.
刘耀  帅远华  龚幸伟  黄毅 《计算机科学》2018,45(1):128-132, 156
文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割。实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法。  相似文献   

12.
基于信息论的潜在概念获取与文本聚类   总被引:7,自引:3,他引:4  
李晓光  于戈  王大玲  鲍玉斌 《软件学报》2008,19(9):2276-2284
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法.  相似文献   

13.
针对传统基于wordnet的词汇语义相似度计算方法中隔离抽象词汇和具象词汇,以及片面依赖上下义关系的不足,提出了基于交通领域知识网络的词汇语义相似度计算方法.基于上下义、工具-工具对象、部件-整体等概念关系准则构建了交通词汇的知识网络图谱,提出了修正的平均路径长度参量计算网络中词汇的语义相似度,得到更高的语义一致性结果.实验表明,在Finkelstein的353对词汇集上,本文算法能够获得比传统方法更符合人工判断的语义相似度.  相似文献   

14.
针对信息检索中文档与查询之间的词不匹配问题,提出了一种基于共现分析和概念语义的查询扩展方法.该方法结合概念语义空间和局部共现分析来实现扩展,并改进了扩展词筛选函数.实验结果表明,该方法对于传统的查询扩展技术的信息查询效果有了很大提高,具有较好的查询性能.  相似文献   

15.
周超  任志宇  毋文超 《计算机科学》2018,45(12):117-122, 129
基于角色的访问控制(Role-Based Access Control,RBAC)在管理和安全方面具有优势,经过20多年的发展后已被广泛应用于各个领域,如何将数据繁多的非RBAC系统迁移成RBAC系统已经成为一个意义重大的难题。角色是RBAC的基本特征,因此角色挖掘是RBAC系统实施的一个重要环节。基于形式概念分析生成用户权限概念格及用户属性概念格,将用户权限概念格翻转后映射为初始候选角色状态,通过约简操作和精简操作来挖掘角色,然后对用户权限概念格及用户属性概念格进行相似性分析,通过定义最近似表达式为角色赋予语义,使得生成的角色具有以下两点优势:1)结构层次,有效地减轻了管理员授权的负担,提高了授权管理的效率;2)语义意义,能够与现实生活中的概念相关联,增强了角色的可解释性。最后,通过实验验证了该算法的正确性和有效性。  相似文献   

16.
探讨了形式概念分析在自然语言理解中的多义词分析及义素分析中的应用。在对多义词进行分析时,根据词性与词义之间的二元关系,构造词性与词义的决策背景,进而发现了词性与词义之间的决策规则,并对这些决策规则进行了解释;在对义素分析进行研究时,根据语言对象及其语义特征之间的二元关系构造形式背景,并在此背景上分析语言对象,实例表明了形式概念分析既可以很容易地对词语进行分类,又可以很直观地反映词类之间的关系,是进行义素分析的一种有效工具。  相似文献   

17.
针对为检索服务的语义知识库存在的内容不全面和不准确的问题,提出一种基于维基百科的软件工程领域概念语义知识库的构建方法;首先,以SWEBOK V3概念为标准,从维基百科提取概念的解释文本,并抽取其关键词表示概念的语义;其次,通过概念在维基百科中的层次关系、概念与其它概念解释文本关键词之间的链接关系、不同概念解释文本关键词之间的链接关系构建概念语义知识库;接着, LDA主题模型分别和TF-IDF算法、TextRank算法相结合的两种方法抽取关键词;最后,对构建好的概念语义知识库用随机游走算法计算概念间的语义相似度;将实验结果与人工标注结果对比发现,本方法构建的语义知识库语义相似度准确率能够达到84%以上;充分验证了所提方法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号