首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 85 毫秒
1.
按照信息抽取粒度不同,本文在基于向量空间模型的句子聚类基础上,提出分两级建立事件模板的方法。相应地,信息抽取过程也分两级,即采用基于中心向量模型的方法抽取句子级信息,采取模式匹配的方法抽取词语或短语级信息。实验结果表明,此方法能对文本信息进行较有效的全面提取,实验结果令人满意。  相似文献   

2.
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。  相似文献   

3.
受信息抽取工作的驱动,利用事件相关文档的特点,在分析各种文本特征的基础上,综合利用词语、语义和词串信息进行句子相似度计算,并在此基础上进行句子聚类,提出了基于特征选择的句子聚类方法,为抽取事件侧面信息提供更好的基础资源.实验表明,采用多特征后,句子聚类的效果得到明显提高.  相似文献   

4.
基于关键词聚类和节点距离的网页信息抽取   总被引:2,自引:0,他引:2  
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。  相似文献   

5.
刘云峰 《计算机工程》2010,36(12):83-84
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。  相似文献   

6.
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法.该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板.对不同类型网站实验表明,该方法获得快速和较高准确度的效果.  相似文献   

7.
季红洁  赵知纬  钱龙华 《福建电脑》2012,28(11):10-12,45
跨文本指代消解研究是自然语言处理中的一个重点以及难点,是信息检索、信息抽取和多文档摘要等应用的重要组成部分。传统的跨文本指代消解主要解决信息检索中遇到的重名消歧问题。本文从信息抽取的角度出发,旨在解决信息抽取过程中的重名消歧和多名聚合两大跨文本指代消解任务。本文在一个基于ACE2005中文语料库标注的中文跨文本指代语料库上,利用空间向量模型进行面向信息抽取的跨文本指代消解。  相似文献   

8.
基于聚类的Web链接抽取   总被引:1,自引:0,他引:1  
互联网是通过超链连接起来的网页,为人们的日常和商务用途提供了非常丰富的信息资源。链接结构分析在万维网的很多研究领域起着越来越重要的作用。然而链接中存在着许多与主题无关的链接,造成了主题漂移。本文分析了链接本身的特点,介绍了一种基于聚类的与网站模版无关的自动WEB链接抽取方法。试验结果表明该算法具有实用的价值。  相似文献   

9.
杨志彬 《信息安全与技术》2011,(11):106-107,110
随着信息技术和现代教育技术的发展,教学资源管理系统在各种不同层次的院校被广泛应用,本文基于聚类算法设计并实现一套教学资源管理系统,通过聚类算法能有效提高教学资源的检索效率从而提高教学资源管理系统的总体性能。  相似文献   

10.
基于维基百科和模式聚类的实体关系抽取方法   总被引:1,自引:0,他引:1  
该文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对。首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,该方法很好地解决了实体识别的问题,生成了准确而显著的句子实例;进一步,提出了显著性假设和关键词假设,在此基础上构建基于关键词的分类及层次聚类算法,显著提升了模式的可信度。实验结果表明该方法有效提升了句子实例及模式的质量,获得了良好的抽取性能。  相似文献   

11.
仲华  崔志明 《微机发展》2007,17(7):49-52
在分析了传统索引技术的缺陷的基础上,提出了一种基于XML架构信息抽取的多层向量空间的模型,重点阐述了如何建立一个基于XML的Web信息抽取平台,从构造知识库、网页优化和信息抽取这三方面进行研究,并阐述了基于XML的多层向量空间模型及其形成。通过这种技术不仅使网页内容得到了清晰的剖析和抽取,更能大大提高对Web网页文档检索效率和准确率。目的在于寻求一种更为高效简洁的检索方法。  相似文献   

12.
在分析了传统索引技术的缺陷的基础上,提出了一种基于XML架构信息抽取的多层向量空间的模型,重点阐述了如何建立一个基于XML的Web信息抽取平台,从构造知识库、网页优化和信息抽取这三方面进行研究,并阐述了基于XML的多层向量空间模型及其形成。通过这种技术不仅使网页内容得到了清晰的剖析和抽取,更能大大提高对Web网页文档检索效率和准确率。目的在于寻求一种更为高效简洁的检索方法。  相似文献   

13.
基于混合并行遗传算法的文本聚类研究   总被引:2,自引:0,他引:2  
针对传统K-Means聚类算法对初始聚类中心的选择敏感,易陷入局部最优解的问题,提出一种基于混合并行遗传算法的文本聚类方法。该方法首先将文档集合表示成向量空间模型,并在文档向量中随机选择初始聚类中心形成染色体,然后结合K-Means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现。实验表明该算法相对于K-Means算法、简单遗传算法等文本聚类方法具有更高的精确度和全局寻优能力。  相似文献   

14.
随着我国汽车工业的飞速发展,汽车消费迅速膨胀,汽车市场竞争日益加剧.合理选择汽车销售及售后区域对汽车厂家有着十分重要的影响,对重卡车辆生产厂家的影响更加明显.采用车载GPS技术和改进的DBSCAN算法将陕重汽的不同类型车辆的行驶GPS数据进行空间聚类分析,最终得到不同车辆的活动热点地区分布数据;分析得到的数据对今后车辆的设计、销售及售后的相关决策问题有着重要的参考价值.  相似文献   

15.
本文介绍利用分装器和簇技术,在没有人工干涉和不知道其数据源的情况下,对含有标记的网页进行分割和查找我们所关心的数据段,最后借用匹配索引技术来抽取感兴趣的数据,并存入到数据库中去。通过对二次搜索和二级数据挖掘的研究,我们可以在不知道数据源的情况下对数据搜索和抽取,从而提供个性化的信息。  相似文献   

16.
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。  相似文献   

17.
基于自适应在线聚类的背景提取   总被引:1,自引:0,他引:1       下载免费PDF全文
分析目前应用于背景提取的各类聚类方法的原理和存在的问题,提出一种基于自适应在线聚类的背景提取方法。通过使用自适应动态改变的聚类阈值对视频进行在线聚类,无须设定任何参数即能自适应地提取出背景图像。实验结果表明,该方法具有较好的自适应性,能够提取出较优的背景图像,对于各种视频具有较好的鲁棒性。  相似文献   

18.
基于信息粒度的聚类分析及其应用   总被引:1,自引:0,他引:1       下载免费PDF全文
在处理复杂问题时,通过改变问题所在的粒度空间,不仅可以有效获取对象的特征,而且可去除干扰和非本质属性,使问题易于分析解决。所谓从粒度计算的观点来讨论聚类分析问题,就是认为聚类是在原问题的粒度下(同一问题的最细粒度空间)进行问题分析。为了简化处理,引入不同的聚类相似性函数,其实质就是得到不同粒度空间的等价类。在实际问题求解中,可以根据问题需要取不同相似性函数,以便将问题变换到所需的粒度空间进行处理。为推广其应用,将该思想应用于车牌二值化,提出了基于信息粒度的聚类变换的二值化算法,实现了从彩色3维空间到黑白1维空间的粒度变换。实验结果表明,该算法所得结果更加切合实际图像,不仅具有普适性,而且有利于下一步的识别操作,尤其对于各种斜车牌、光照不均车牌更具有一定的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号