首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
基于主题划分的网页自动摘要   总被引:4,自引:0,他引:4  
陈志敏  沈洁  林颖  周峰 《计算机应用》2006,26(3):641-0644
提出了一种以网页结构为指导的自动摘要方法。对页面源文件进行解析时,利用文档的结构信息生成DOM树,并在此基础上划分文档主题。同时充分挖掘网页标记对主题词提取和句子重要性计算的价值。最后以主题块为单位,根据句子间的相似度调整句子权重,动态生成摘要。实验结果表明该方法能有效解决文档摘要分布不平衡问题,减少了文摘内容的冗余。  相似文献   

2.
傅间莲  陈群秀 《计算机工程》2006,32(11):209-210,218
提出了一个通过建立段落向量空间模型,根据遗传算法进行文本主题划分的算法,解决了文章的篇章结构分析问题,使得多主题文章的文摘更具内容全面性与结构平衡性。实验结果表明,该算法对多主题文章的主题划分准确率为89.3%,对单主题文章的主题划分准确率为94.6%。  相似文献   

3.
文档自动文摘是自然语言处理一个研究热点。本文提出了一种基于局部主题关键句抽取的多文档自动文摘方法。首先,将文档集合中的每篇文档划分为若干个局部主题,然后对不同文档中的局部主题进行聚类分析,最后从局部主题聚簇中间抽取所需要的文摘句。实验证明了该方法的有效性。  相似文献   

4.
针对论坛文档由于自身特点缺乏有效的文档摘要方法的现状,提出一种基于LDA主题模型的论坛文档摘要方法.在主题建模中考虑了Web论坛文档中帖子和帖子之间的回复关系,并把主题的分布变为随文档变化而变化的一个动态过程,来解决主题的依赖和偏移问题.在使用GibbsEM采样算法来确定动态主题模型的参数后,通过计算句子中主题权重之和来确定各个主题的重要程度;最后根据动态主题模型中主题的概率分布计算各句子的权重并得到文档的摘要.实验结果表明,新方法在各个ROUGE评测标准上均优于其他各种对比的摘要方法.  相似文献   

5.
提出一种潜在文档相似模型(LDSM),把每对文档看作一个二分图,把文档的潜在主题看作二分图的顶点,用主题问的加权相似度为相应边赋权值,并用二分图的最佳匹配表示文档的相似度。实验结果表明,LDSM的平均查准率和平均查全率都优于用TextTiling和二分图最佳匹配方法构建的文档相似模型。  相似文献   

6.
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。  相似文献   

7.
当前的基于词向量的多文档摘要方法没有考虑句子中词语的顺序,存在异句同向量问题以及在小规模训练数据上生成的摘要冗余度高的问题。针对这些问题,提出基于PV-DM(Distributed Memory Model of Paragraph Vectors)模型的多文档摘要方法。该方法首先构建单调亚模(Submodular)目标函数;然后,通过训练PV-DM模型得到句子向量计算句子间的语义相似度,进而求解单调亚模目标函数;最后,利用优化算法抽取句子生成摘要。在标准数据集Opinosis上的实验结果表明该方法优于当前主流的多文档摘要方法。  相似文献   

8.
文章描述了一种基于子主题划分和查询相结合的多文档自动摘要系统的设计:首先利用同义词词林计算句子语义相似度,通过对句子的聚类得到子主题,然后根据用户的查询对子主题进行重要度排序,在此基础上,采用一种动态的句子打分策略从各个主题中抽取句子生成摘要。实验结果表明生成的摘要冗余少,信息全面。  相似文献   

9.
一种基于语义特征的Web文档检索方法   总被引:2,自引:0,他引:2  
Web文档聚类在Web信息检索中起着重要的作用。文中提出了一种新的Web文档聚类和检索算法。该算法采用有序聚类的方法,根据Web文档的物理结构概括其语义段落和提取相应的语义特征,并以此作为文档检索的基础;在此基础上,根据用户的检索要求直接在文档的语义段落层次计算其相似性,大大提高了检索的精度和效率。实验结果表明,文中提出的算法具有一定的实用性。  相似文献   

10.
应用图模型来研究多文档自动摘要是当前研究的一个热点,它以句子为顶点,以句子之间相似度为边的权重构造无向图结构。由于此模型没有充分考虑句子中的词项权重信息以及句子所属的文档信息,针对这个问题,该文提出了一种基于词项—句子—文档的三层图模型,该模型可充分利用句子中的词项权重信息以及句子所属的文档信息来计算句子相似度。在DUC2003和DUC2004数据集上的实验结果表明,基于词项—句子—文档三层图模型的方法优于LexRank模型和文档敏感图模型。  相似文献   

11.
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。  相似文献   

12.
林川 《计算机应用与软件》2008,25(1):138-139,161
在Web环境下,如何有效地根据用户请求,进行Web服务的自动组合,成为一个迫切需要解决的问题.提出了一种利用人工智能的规划问题,对Web服务及其组合进行形式化描述以实现服务自动组合的方法.说明了基于智能规划实现服务自动组合的思想,讨论了智能规划的标准描述语言PDDL与Web服务的对应关系,最后建立了一个实际的模型.  相似文献   

13.
基于DOM的网页主题信息的抽取   总被引:1,自引:0,他引:1  
随着Internet的发展,Web页面信息量不断加大,信息密集程度不断加强。但Web页面的主题信息通常不太明确,抽取主题信息也比较困难。针对这一难题,提出一种算法:构建文档对象模型DOM(Document Object Model)树,然后针对HTML半结构特征的不足,为DOM添加显示、语义(链接数、非链接文字数、高度、宽度)等属性,并提出一种聚类规则来对其进行分块,最后对其进行剪枝,删除掉无用的信息,提取主题信息。实验表明,该方法能够准确抽取主题信息。  相似文献   

14.
基于TMS的信息资源分类与检索方法研究   总被引:1,自引:0,他引:1  
本文研究基于主题图的多种格式信息资源的分类管理与检索方法。主要研究运用主题图方法,表示信息资源的内容及相互间关系,并实现自动推理。最后设计了一个基于主题图技术的信息资源分类与检索应用系统实例,它体现了主题图技术特点,将信息资源分为资源域和主题域两层,很方便组织管理信息资源,能提高检索性能,并有一定程度的智能检索和内容管理能力。  相似文献   

15.
现有的语义Web服务匹配算法没有考虑到本体概念间的多元关系,导致概念的语义不能被完整地反映出来,从而影响了算法的匹配性能。利用本体概念间的多元关系定义了一种语义距离,并通过该语义距离给出了概念间的语义相似度计算方法,在此基础上提出基于语义相似度的Web服务匹配算法。该算法通过本体概念间的语义相似度来反映Web服务的匹配程度。最后,通过对比实验验证了该算法的可行性和有效性。  相似文献   

16.
提出一种基于关系权重的文本表示方法.通过优化关系权重,在文本向量中体现了不同特征项在不同类别中重要程度的差异,使得在此权重下不同类别的文本得到更准确的区分.运用SVM分类实验表明,基于关系权重的文本表示方法,较之传统的 TF-IDF 文本表示法,有更高的准确率和召回率.  相似文献   

17.
基于Web的数据信息发布逐步由文本发布转向多种形式的图形、图像化及其混合方式发展,探讨了Web环境下OLAP系统在客户端的一种新的信息实时发布模式,提出了在XML-Web Service分布式环境中,采用.NET XML-SVG JavaScript 几种技术相结合的综合实施方案,实现了以图形方式的OLAP信息实时发布模式,并且提供了动态交互性能,完善了OLAP系统在该领域的一种解决方案.  相似文献   

18.
基于推理和相似度计算的语义Web服务匹配策略   总被引:1,自引:0,他引:1  
将本体的概念引入Web服务提升了服务的语义表达能力和发现能力,传统的语义Web服务匹配主要有基于推理和基于本体相似度计算两种方式.基于推理的服务匹配较容易实现,具有稳定的查准率和较高的运行效率,但同一级结果间不能进一步区分结果的匹配度.基于相似度计算的服务发现可以精确地描述结果与查询条件的匹配程度,便于用户比较,但实现较为复杂,并且在最坏情况下有糟糕的响应时间.在基于推理的服务匹配策略的基础上,提出了一种带有语义相似度计算的服务匹配策略,并用一个书籍领域本体的匹配实例进行了说明.  相似文献   

19.
一种基于群体智能的Web文档聚类算法   总被引:31,自引:0,他引:31  
将群体智能聚类模型运用于文档聚类,提出了一种基于群体智能的Web文档聚类算法,首先运用向量空间模型表示Web文档信息,采用常规方法如消除无用词和特征词条约简法则得到文本特征集,然后将文档的向量随机分布到一个平面上,运用基于群体智能的聚类方法进行文档聚类,最后从平面上采用递归算法收集聚类结果,为了改善算法的实用性,将原算法与k均值算法结合提出一种混合聚类算法,通过实验比较,结果表明基于群体智能的Web文档聚类算法具有较好的聚类特性,它能将与一个主题相关的Web文档较完全而准确地聚成一类。  相似文献   

20.
通过Web日志文件,识别用户及用户会话序列,然后提取会话序列所对应的Web页面内容,得到Web页面内容的核心概念,用核心概念描述会话主题,基于会话主题实现会话的切分。最后结合一个消费平台消费者的会话记录及Web内容,验证了该方法的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号