首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对现今较流行的动态Web网页数量巨大、数据价值高,并且网页结构高度模板化的特点,设计了一个基于网页聚类的Web信息自动抽取系统。在DOM抽取技术基础上利用网页聚类寻找高相似簇,并引入列相似度和全局自相似度计算方法,提高了聚类结果的准确性。抽取模板中应用了可选节点对模板的修正和调整,以提高内容节点的正确标识。实验结果表明,该方法能够自动寻找并抽取网页主要信息,达到了较高的准确率和查全率。  相似文献   

2.
首先总结了链接挖掘中基于属性—链接聚类算法的研究现状;然后把它大体分为三类,对每一类中具有代表性的算法进行了详细介绍、分析和评价;最后指出了该领域进一步的研究方向。  相似文献   

3.
Web表格知识抽取是一种重要的获取高质量知识的途径,在知识图谱、网页挖掘等方面具有广泛的研究意义与应用价值。传统的Web表格知识抽取方法主要依赖于良好的表格结构和足够的先验知识,但在复杂的表格结构以及先验知识不足等情形下难以奏效。针对这类方法的问题,该文通过充分利用表格自身的结构特点,提出了一套可面向大规模数据的基于等价压缩快速聚类的Web表格知识抽取方法,以无监督的聚类方式获得相似形式结构的表格,从而推测其语义结构以抽取知识。实验结果表明,基于等价压缩的快速聚类算法在保持同水平的聚类准确率的前提下,在时间性能上相比传统方法有大幅度的提升,5 000个表格的聚类时间由72小时缩短为20分钟,且在表格聚类后利用表格模板所抽取的知识三元组的准确率也达到了令人满意的结果。  相似文献   

4.
针对复杂信息网络中多链接高维数据聚类难以处理且效率较低问题,提出了一种新颖的基于高阶张量分析方法和模块化网络分析方法相结合的链接聚类算法。利用模块化方法分析网络,利用张量的形式表示多维的复杂的多链接数据,利用Tucker张量分解的方法对数据降维处理,降低了算法的时间和空间复杂度。并在复杂网络环境下,通过实验验证了算法的有效性和健壮性。  相似文献   

5.
基于Web页面链接和标签的聚类方法   总被引:1,自引:0,他引:1  
针对目前Web聚类效率和准确率不高的问题,提出一种基于Web页面链接结构和标签信息的聚类方法CWPBLT(clustering web pages based on their links and tags),它是通过分析Web页面中的链接结构和重要标签信息来比较页面之间的相似度,从而对Web站点中的Web页面进行聚类,聚类过程同时兼顾了Web页面结构和页面标签提供的内容信息.实验结果表明,该方法有效地提高了聚类的时间效率和准确性,是对以往仅基于页面主题内容或页面结构聚类方法的改进.  相似文献   

6.
社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering & topic extraction)框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity-based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSA_SC(clusters self-adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明,STC-TE框架能够全面准确地抽取主题信息,快速有效地实现海量短文本分类.  相似文献   

7.
聚类是Web数据管理领域的一个具有挑战性的课题。各种形式的聚类要求在大范围内得到应用,包括找到镜像网页,探测侵权行为,并以结构化方式展示搜索的结果。概述了实现聚类在WEB用户和WEB资源得以应用的最流行的方法,并提出了当前的应用状态和WEB领域将来的发展前景。  相似文献   

8.
按照信息抽取粒度不同,本文在基于向量空间模型的句子聚类基础上,提出分两级建立事件模板的方法.相应地,信息抽取过程也分两级,即采用基于中心向量模型的方法抽取句子级信息,采取模式匹配的方法抽取词语或短语级信息.实验结果表明,此方法能对文本信息进行较有效的全面提取,实验结果令人满意.  相似文献   

9.
一种基于词聚类的中文文本主题抽取方法   总被引:2,自引:0,他引:2  
陈炯  张永奎 《计算机应用》2005,25(4):754-756
提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进行特征词抽取,再借助词类生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。实验结果表明,该方法具有较高的抽准率。  相似文献   

10.
基于维基百科和模式聚类的实体关系抽取方法   总被引:1,自引:0,他引:1  
该文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对。首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,该方法很好地解决了实体识别的问题,生成了准确而显著的句子实例;进一步,提出了显著性假设和关键词假设,在此基础上构建基于关键词的分类及层次聚类算法,显著提升了模式的可信度。实验结果表明该方法有效提升了句子实例及模式的质量,获得了良好的抽取性能。  相似文献   

11.
基于关键词聚类和节点距离的网页信息抽取   总被引:2,自引:0,他引:2  
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。  相似文献   

12.
按照信息抽取粒度不同,本文在基于向量空间模型的句子聚类基础上,提出分两级建立事件模板的方法。相应地,信息抽取过程也分两级,即采用基于中心向量模型的方法抽取句子级信息,采取模式匹配的方法抽取词语或短语级信息。实验结果表明,此方法能对文本信息进行较有效的全面提取,实验结果令人满意。  相似文献   

13.
社团结构分析有助于识别代谢网络中的功能模块,有助于理解代谢网络的结构和功能关系,是代谢网络研究领域的一个重要研究课题。然而,当前的社团结构分析方法均依赖于对网络中的节点进行聚类分析,导致每个节点只能属于某一个社团。采用了一种对复杂网络中的链接进行聚类分析的方法,对高质量金黄色葡萄球菌代谢网络模型的巨强连通体进行了社团结构分析,得到了10个具有生物学意义的功能模块,结果表明链接聚类可用于识别新陈代谢网络中的功能社团。  相似文献   

14.
开放关系抽取(Open Relation Extraction, OpenRE)旨在从开放域语料库中抽取关系事实。大多数OpenRE方法通常局限于无监督方法提取命名实体之间的关系模式,然后将语义等价的模式聚类成一个关系簇,但由于缺少监督信息且聚类精度较低,影响了最终的关系抽取效果。为了进一步提高聚类性能,该文提出一种无监督集成聚类框架(Unsupervised Ensemble Clustering,UEC),它将无监督集成学习与基于信息度量的多步聚类算法相结合自主创建高质量伪标签,并以此作为监督信息改进关系特征的学习,从而引导聚类过程,获得更好的标签质量,最后通过多次迭代聚类发现文本中的关系类型。在FewRel和NYT-FB数据集上的实验结果表明,该文方法优于其他主流的基线OpenRE模型,F1值分别达到了65.2%和67.1%。  相似文献   

15.
刘云峰 《计算机工程》2010,36(12):83-84
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。  相似文献   

16.
针对目前Web聚类准确率不高的问题,提出一种基于Web页面链接结构和页面中图片主色调特征的聚类算法。通过分析Web页面中的链接结构和Web页面中所显示图片的主色调来比较页面之间的相似度,对Web站点中的Web页面进行聚类。聚类过程兼顾Web页面结构和页面的主要色彩特征。系统实验结果表明,该算法能有效提高聚类的准确性。  相似文献   

17.
李贵  陈成  李征宇  韩子扬  孙平  孙焕良 《计算机科学》2013,40(Z6):141-144,165
提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合,并依据路径相似度测量方法来聚类标签路径,实现目标数据区域的定位,然后通过标签节点坐标位置的特性来分离各个数据项,过滤冗余数据,最终完成数据抽取。实验结果表明,与MDR方法相比,该方法在处理拥有结构化数据的网页时,有更高的查全率和查准率。  相似文献   

18.
基于聚类遗传算法的神经网络规则抽取及应用   总被引:1,自引:0,他引:1  
提出了一种基于Gabor滤波器和神经网络规则抽取的烘焙面包品质分类方法。滤波器对烘焙面包切片区域灰度图像直接进行小波变换,用能量均值"和均方差!来表示灰度图像的纹理特征,并基于对隐层神经元输出值聚类的遗传算法实现了对面包品质分类的规则抽取。实验结果表明了该方法的实用性和可行性。  相似文献   

19.
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法.该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板.对不同类型网站实验表明,该方法获得快速和较高准确度的效果.  相似文献   

20.
张万山  肖瑶  梁俊杰  余敦辉 《计算机应用》2014,34(11):3144-3146
针对传统Web文本聚类算法没有考虑Web文本主题信息导致对多主题Web文本聚类结果准确率不高的问题,提出基于主题的Web文本聚类方法。该方法通过主题提取、特征抽取、文本聚类三个步骤实现对多主题Web文本的聚类。相对于传统的Web文本聚类算法,所提方法充分考虑了Web文本的主题信息。实验结果表明,对多主题Web文本聚类,所提方法的准确率比基于K-means的文本聚类方法和基于《知网》的文本聚类方法要好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号