共查询到17条相似文献,搜索用时 140 毫秒
1.
基于概念统计的英文自动文摘研究 总被引:6,自引:2,他引:6
文章提出了一种基于概念统计和语义层次分析的自动文摘方法,并以此实现了一个英文自动文摘系统。系统利用WordNet对英文文章进行词语分析,用概念统计的方法选取文章的主题概念,以此构建向量空间模型;并根据主题概念在概念层次树上的分布划分意义块,以意义块为单位抽取文摘,初步解决多主题文章的文摘结构不平衡问题。该文主要介绍概念层次树的构造,主题概念的抽取步骤,句子重要度的计算和意义块的划分算法。测试表明该文提到的方法比传统的基于词频统计的方法有更高的召回率与精确率。 相似文献
2.
基于概念向量空间模型的中文自动文摘系统 总被引:1,自引:0,他引:1
文章提出了一种基于hownet提取出词语的词义,用词语的词义代替传统的词形频率统计方法,并基于词义排歧建立主题语义概念向量空间模型。通过对抽取出的语句进行句子相似度的计算提高文摘精确度,设计实现了一个中文自动文摘系统。 相似文献
3.
4.
5.
基于明确语义分析的自动文摘算法 总被引:2,自引:0,他引:2
不同于传统采用统计学习方式的自动文摘算法,利用维基百科等知识密集的资源建立概念空间,在该空间中对词语进行语义解释,进而解释词语及文本片段的语义,由此提出一种基于明确语义分析的自动文摘算法。实验结果证明,相比传统算法,该算法精度更高,用更少的句子即可获得更高的信息覆盖率。 相似文献
6.
随着网络资源的快速膨胀,海量的文本自动处理任务面临着巨大的挑战,而文本主题抽取就是文本自动处理领域中的一项重要研究课题.针对词语量化关系的主题概念抽取算法,首先在词聚类的基础上建立概念向量空间模型,由知网中词语相似度,加权计算出概念权重;然后利用词典中词语之间量化关系,通过对概念的相关向量和权重的向量乘积得到每个概念的主题重要度;最后依据重要度抽取出反映文本主题的概念来.实验证明,上述与传统的词频统计相比,准确率更高. 相似文献
7.
8.
9.
随着在线网页的指数型增长,自动摘要技术越来越受到人们的关注。针对抽取型摘要很少对文本进行语义分析、抽取出的句子可能偏离主题等缺陷,结合单文本摘要的特点,提出了一种英文自动摘要方法TLETS(TF-ISF and LexRank based English Text Summarization)。该方法采用WordNet对向量空间模型的特征词进行概念统计,计算每个概念词的TF-ISF值作为其权值,最后计算每个句子的LexRank权值并提取出权值最高的几个句子作为摘要。实验结果表明,TLETS方法能很好地得到摘要结果。 相似文献
10.
11.
文本分割在信息检索、摘要生成、问答系统、信息抽取等领域发挥着重要作用。在总结现有的国内外文本分割方法的基础上,提出了一种基于领域本体对文本进行线性分割的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的概念、属性及属性词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将拥有相同语义标注信息的段落划分为相同语义段落,实现了文本不同子主题之间的分割。实验结果表明,该方法对于特定领域的文本分割的准确率、召回率以及F值分别达到了85%,90%和88%,分割效果能够满足实际应用需求,并优于现有的无需训练语料的文本分割方法。 相似文献
12.
基于信息论的潜在概念获取与文本聚类 总被引:7,自引:3,他引:4
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法. 相似文献
13.
针对传统基于wordnet的词汇语义相似度计算方法中隔离抽象词汇和具象词汇,以及片面依赖上下义关系的不足,提出了基于交通领域知识网络的词汇语义相似度计算方法.基于上下义、工具-工具对象、部件-整体等概念关系准则构建了交通词汇的知识网络图谱,提出了修正的平均路径长度参量计算网络中词汇的语义相似度,得到更高的语义一致性结果.实验表明,在Finkelstein的353对词汇集上,本文算法能够获得比传统方法更符合人工判断的语义相似度. 相似文献
14.
15.
基于角色的访问控制(Role-Based Access Control,RBAC)在管理和安全方面具有优势,经过20多年的发展后已被广泛应用于各个领域,如何将数据繁多的非RBAC系统迁移成RBAC系统已经成为一个意义重大的难题。角色是RBAC的基本特征,因此角色挖掘是RBAC系统实施的一个重要环节。基于形式概念分析生成用户权限概念格及用户属性概念格,将用户权限概念格翻转后映射为初始候选角色状态,通过约简操作和精简操作来挖掘角色,然后对用户权限概念格及用户属性概念格进行相似性分析,通过定义最近似表达式为角色赋予语义,使得生成的角色具有以下两点优势:1)结构层次,有效地减轻了管理员授权的负担,提高了授权管理的效率;2)语义意义,能够与现实生活中的概念相关联,增强了角色的可解释性。最后,通过实验验证了该算法的正确性和有效性。 相似文献
16.
17.
针对为检索服务的语义知识库存在的内容不全面和不准确的问题,提出一种基于维基百科的软件工程领域概念语义知识库的构建方法;首先,以SWEBOK V3概念为标准,从维基百科提取概念的解释文本,并抽取其关键词表示概念的语义;其次,通过概念在维基百科中的层次关系、概念与其它概念解释文本关键词之间的链接关系、不同概念解释文本关键词之间的链接关系构建概念语义知识库;接着, LDA主题模型分别和TF-IDF算法、TextRank算法相结合的两种方法抽取关键词;最后,对构建好的概念语义知识库用随机游走算法计算概念间的语义相似度;将实验结果与人工标注结果对比发现,本方法构建的语义知识库语义相似度准确率能够达到84%以上;充分验证了所提方法的有效性。 相似文献