共查询到18条相似文献,搜索用时 85 毫秒
1.
按照信息抽取粒度不同,本文在基于向量空间模型的句子聚类基础上,提出分两级建立事件模板的方法。相应地,信息抽取过程也分两级,即采用基于中心向量模型的方法抽取句子级信息,采取模式匹配的方法抽取词语或短语级信息。实验结果表明,此方法能对文本信息进行较有效的全面提取,实验结果令人满意。 相似文献
2.
3.
受信息抽取工作的驱动,利用事件相关文档的特点,在分析各种文本特征的基础上,综合利用词语、语义和词串信息进行句子相似度计算,并在此基础上进行句子聚类,提出了基于特征选择的句子聚类方法,为抽取事件侧面信息提供更好的基础资源.实验表明,采用多特征后,句子聚类的效果得到明显提高. 相似文献
4.
基于关键词聚类和节点距离的网页信息抽取 总被引:2,自引:0,他引:2
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。 相似文献
5.
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。 相似文献
6.
刘云峰 《计算机应用与软件》2010,27(11)
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法.该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板.对不同类型网站实验表明,该方法获得快速和较高准确度的效果. 相似文献
7.
8.
基于聚类的Web链接抽取 总被引:1,自引:0,他引:1
互联网是通过超链连接起来的网页,为人们的日常和商务用途提供了非常丰富的信息资源。链接结构分析在万维网的很多研究领域起着越来越重要的作用。然而链接中存在着许多与主题无关的链接,造成了主题漂移。本文分析了链接本身的特点,介绍了一种基于聚类的与网站模版无关的自动WEB链接抽取方法。试验结果表明该算法具有实用的价值。 相似文献
9.
随着信息技术和现代教育技术的发展,教学资源管理系统在各种不同层次的院校被广泛应用,本文基于聚类算法设计并实现一套教学资源管理系统,通过聚类算法能有效提高教学资源的检索效率从而提高教学资源管理系统的总体性能。 相似文献
10.
11.
在分析了传统索引技术的缺陷的基础上,提出了一种基于XML架构信息抽取的多层向量空间的模型,重点阐述了如何建立一个基于XML的Web信息抽取平台,从构造知识库、网页优化和信息抽取这三方面进行研究,并阐述了基于XML的多层向量空间模型及其形成。通过这种技术不仅使网页内容得到了清晰的剖析和抽取,更能大大提高对Web网页文档检索效率和准确率。目的在于寻求一种更为高效简洁的检索方法。 相似文献
12.
在分析了传统索引技术的缺陷的基础上,提出了一种基于XML架构信息抽取的多层向量空间的模型,重点阐述了如何建立一个基于XML的Web信息抽取平台,从构造知识库、网页优化和信息抽取这三方面进行研究,并阐述了基于XML的多层向量空间模型及其形成。通过这种技术不仅使网页内容得到了清晰的剖析和抽取,更能大大提高对Web网页文档检索效率和准确率。目的在于寻求一种更为高效简洁的检索方法。 相似文献
13.
基于混合并行遗传算法的文本聚类研究 总被引:2,自引:0,他引:2
针对传统K-Means聚类算法对初始聚类中心的选择敏感,易陷入局部最优解的问题,提出一种基于混合并行遗传算法的文本聚类方法。该方法首先将文档集合表示成向量空间模型,并在文档向量中随机选择初始聚类中心形成染色体,然后结合K-Means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现。实验表明该算法相对于K-Means算法、简单遗传算法等文本聚类方法具有更高的精确度和全局寻优能力。 相似文献
14.
15.
本文介绍利用分装器和簇技术,在没有人工干涉和不知道其数据源的情况下,对含有标记的网页进行分割和查找我们所关心的数据段,最后借用匹配索引技术来抽取感兴趣的数据,并存入到数据库中去。通过对二次搜索和二级数据挖掘的研究,我们可以在不知道数据源的情况下对数据搜索和抽取,从而提供个性化的信息。 相似文献
16.
俞琰 《自动化技术与应用》2008,27(10):58-61
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。 相似文献
17.
18.
在处理复杂问题时,通过改变问题所在的粒度空间,不仅可以有效获取对象的特征,而且可去除干扰和非本质属性,使问题易于分析解决。所谓从粒度计算的观点来讨论聚类分析问题,就是认为聚类是在原问题的粒度下(同一问题的最细粒度空间)进行问题分析。为了简化处理,引入不同的聚类相似性函数,其实质就是得到不同粒度空间的等价类。在实际问题求解中,可以根据问题需要取不同相似性函数,以便将问题变换到所需的粒度空间进行处理。为推广其应用,将该思想应用于车牌二值化,提出了基于信息粒度的聚类变换的二值化算法,实现了从彩色3维空间到黑白1维空间的粒度变换。实验结果表明,该算法所得结果更加切合实际图像,不仅具有普适性,而且有利于下一步的识别操作,尤其对于各种斜车牌、光照不均车牌更具有一定的优越性。 相似文献