首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 54 毫秒
1.
提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念。在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法。在分析URL的相关度时,首先判断其锚文本的相关度是否达到一定的阈值σ,只有当锚文本的相关度达不到σ时才会去下载URL对应的页面进行分析,否则将锚文本的相关度作为URL的相关度。这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本的信息。为了比较准确合理地获得阈值σ的取值,本文采用了最小均方差(LMS)的方法。  相似文献   

2.
蒋建慧  陈玉泉 《计算机仿真》2009,26(12):122-125
随着网络资源的快速膨胀,海量的文本自动处理任务面临着巨大的挑战,而文本主题抽取就是文本自动处理领域中的一项重要研究课题.针对词语量化关系的主题概念抽取算法,首先在词聚类的基础上建立概念向量空间模型,由知网中词语相似度,加权计算出概念权重;然后利用词典中词语之间量化关系,通过对概念的相关向量和权重的向量乘积得到每个概念的主题重要度;最后依据重要度抽取出反映文本主题的概念来.实验证明,上述与传统的词频统计相比,准确率更高.  相似文献   

3.
基于关联矩阵的属性约简算法   总被引:5,自引:0,他引:5  
闫德勤  王杨 《计算机工程与应用》2005,41(20):181-182,191
利用差别矩阵对信息系统特别是对大规模数据的信息系统进行属性约简研究的一个重要方面就是如何提高计算速度。为改进差别矩阵的应用,提高约简效率,文章提出了关联矩阵的概念,同时,依照决策属性对条件属性的依赖程度,利用关联阵中属性频率的信息,提出了一种属性约简算法。实验结果证明了该算法有效、快捷。  相似文献   

4.
主题爬虫是实现主题搜索引擎的关键部分。提出了利用朴素贝叶斯算法进行主题识别的方法,介绍了主题爬虫实现过程中所涉及到的关键部分,包括种子URL集合的生成、页面分析及特征提取、主题识别等。将基于朴素贝叶斯算法的主题爬虫,与基于链接分析的主题爬虫和基于主题词表的主题爬虫进行比较,实验表明基于朴素贝叶斯算法的主题爬虫准确性较好,论证了方法的可行性,为主题信息的采集奠定了良好的基础。  相似文献   

5.
萧婧婕  陈志云 《计算机科学》2018,45(Z11):146-148, 166
为了解决主题爬虫在全局搜索中难以实现最优解的问题,提高主题爬虫的准确率和召回率,文中设计了一个结合灰狼算法的主题爬虫搜索策略。实验结果表明,与传统的广度优先搜索策略以及同样是群体智能算法的遗传算法相比,基于灰狼算法的主题爬虫的性能有了很大的提高,能爬取到更多的主题相关的网页。  相似文献   

6.
为提高网页内容与特定主题之间相关度计算的准确度,提出一种基于领域本体的网页主题相关度计算模型OBWTCCM(ontology based webpage-topic correlation calculation model)。使用领域本体刻画主题,通过计算本体概念间的语义关系提取主题概念并构造主题语义矩阵,将特征词的统计信息与该矩阵相结合计算网页与主题之间的相关度。该模型改进了向量空间模型在相关度计算时对特征词语义层次分析的不足。实际项目应用结果表明,使用该方法计算得到的网页主题相关度与领域专家的判断总体相符,具有较理想的准确度。  相似文献   

7.
首先,给出了主题爬虫的概念;然后介绍了主题相关度计算的两种模型;布尔模型和空间向量模型;通过对两种模型进行分析,提出了一种基于网页标题的空间向量模型主题相关度计算方法Relative.经过试验分析,该算法具有很好的实用性,基于该算法的主题爬虫系统能够在Web上爬取高度主题相关的网页,极大的提高了网络爬虫的效率.  相似文献   

8.
当前存在的元搜索查询方法不够精确,为了解决这一问题,建立了主题元搜索模型,提出了一种基于主题信息与相关度相结合的结果整合算法。该算法综合考虑了主题信息与成员搜索引擎之间的相关度,主题信息与查询结果之间的相关度,查询词与查询结果的相关度,以及查询结果的重复度、位置等诸多因素。实验表明,该算法能够很好地把用户最关心的结果排在查询结果集的前面,提高了查准率。  相似文献   

9.
面向主题的概念检索研究   总被引:2,自引:1,他引:2  
该文提出了一种基于概念网络和主题概念树的面向主题的文本检索算法。依托概念网络建立主题概念树,利用主题概念树对用户的查询请求进行语义扩展,实现同义和语义蕴涵检索。关联度的计算模型考虑了词与词之间,句与句之间的语义激励。通过关联度在主题概念树上的传播模型,实现复合概念关联度的计算。检索结果按关联度大小降序排列。基于主题概念树的概念检索导航为用户检索提供了便利。  相似文献   

10.
在传统检索模型的基础上,结合本体的概念,提出一种基于本体语义树的主题空间向量模型,该模型能够用语义概念树描述一个主题,与传统基于关键词描述主题的方法不同,它能够描述概念之间的简单语义关系.在此基础上,给出HTML页面内容与主题相关度的计算方法.在分析URL的相关度时,不仅分析链接锚文本与主题相关度,还结合了改进的Pag...  相似文献   

11.
基于形式概念的语义网本体的构建与展现   总被引:4,自引:0,他引:4  
作为语义网基础的本体是共享概念模型的明确的形式化规范说明,它提供一种让计算机可以交换、搜寻和认同文字信息的方式。有效地构建、展现本体成为应用本体的关键问题,然而,现有构建本体的各种方法都在不同方面存在着限制。经过分析比较,本文采用形式概念分析理论构造本体阶层来弥补缺陷,并结合机率模式展现本体,用于表达概念之间及概念、资料间的相关性,利用文件与概念的相关性排序结果,以便于用户找到最相关的信息,从而有效地提高了信息查找的效率。本文通过实例来演示本体的构造与表达。  相似文献   

12.
基于语义计算的语句相关度研究   总被引:34,自引:8,他引:34  
该文在中文问题回答系统中引入了语义计算。基于《词林》和hownet两种语言资源,提出计算词与词之间的相似度和相关度,然后得到语句间的相关度,系统通过对语句相关度的比较从而得到查询问题的最优答案。该方法采用了定量计算,易于结合到QA系统中,同时避免了很多传统的自然语言处理问题。试验结果表明该方法是有效的。  相似文献   

13.
课题研究对大多数人而言是具有距离感的,探讨软件教学中的课题研究以及课题研究对成长所起的作用.  相似文献   

14.
翟浩良  韩道军  李磊 《计算机科学》2011,38(11):179-186
辩论框架是计算机利用辩论机制来解决实际问题的基础,如商务谈判、法律纠纷和劳动争议等。传统的辩论框架对辩论机制和论证方法作了具体的形式化描述,但忽略了辩论主体及其对辩论结果影响的描述,而且在辩论过程中一个论点通常需要多个论据的联合论证。针对以上问题,在传统辩论框架的基础上,提出了一种基于主体可信度的联合辩论框架(STUAF)。首先引入了辩论主体的概念,并对观点和论据之间的联合论证进行形式化定义;其次给出了完整的框架结构和语义描述,证明了该辩论框架满足Dunk提出的标准辩论框架的基本定理;然后结合辩论树给出了语义计算的算法;最后给出一个具体的应用实例,实例分析表明S I'UAF及其语义算法是有效的。  相似文献   

15.
基于搜索空间划分的概念生成算法   总被引:6,自引:0,他引:6  
齐红  刘大有  胡成全  卢明  赵亮 《软件学报》2005,16(12):2029-2035
概念格作为形式概念分析理论中的核心数据结构,在机器学习、数据挖掘和知识发现、信息检索等领域得到了广泛的应用.概念格的构造在其应用过程中是一个主要问题.提出了一种基于搜索空间划分的概念生成算法SSPCG(search space partition based concepts generation),它将属性集合的幂集看作初始闭包搜索空间,迭代地将每个搜索空间划分为一些子搜索空间,并引入了子搜索空间的有效性判断,只搜索那些能生成正规闭包的子搜索空间,有效地提高了搜索效率;同时,在计算闭包过程中保存一些必要的中间结果,用来提高闭包运算速度.由于所有子搜索空间是独立的,所以该算法可以很容易地扩展为并行算法.在随机生成的数据集和真实数据集上进行的实验测试表明,本算法的时间性能要优于Ganter提出的NextClosure算法.  相似文献   

16.
基于Web的专题信息管理系统   总被引:1,自引:0,他引:1  
文章讨论与分析了基于Web的专题信息管理系统的特点和功能,着重阐述了利用Java的服务器技术和JDBC实现难点及解决方法。  相似文献   

17.
基于本体结构的概念间语义相似度算法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对本体模型的结构特点,从模型概念间的宽度、深度、密度等方面分析本体概念相似度的计算,将其合并为结构因素。结合语义重合度、语义距离等影响相似度的因素综合考虑,提出一种基于本体结构的计算概念间语义相似度的算法。通过建立本体模型并进行实验分析,总结出本体结构方面各因素对本题概念语义相似度的影响。  相似文献   

18.
基于文档句构建无向图,将主题句的抽取问题转换为无向图中节点的权重计算问题。首先利用滑窗方法抽取主题词,构建空间向量并生成无向图,然后基于向量空间模型计算边权重,最后利用文档句相似度矩阵的权重模型对文档句权重进行建模与计算,依据压缩比得到文档的主题句。实验表明,该方法在不同的压缩比下生成的摘要质量高,主题句抽取结果接近于人工摘要,召回率和准确率综合指数较高。  相似文献   

19.
杨畅 《电脑学习》2010,(5):87-88
"Linux网络操作系统"的课程方案设计,是基于典型工作过程的学习情境设计。从课程分析,平台的搭建,教学方案的设计等方面进行了探究,强调以学习情境为载体从而使学生能够掌握相关知识,激发学生的兴趣和思维,从而提高学生综合职业能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号