共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
3.
Web表格知识抽取是一种重要的获取高质量知识的途径,在知识图谱、网页挖掘等方面具有广泛的研究意义与应用价值。传统的Web表格知识抽取方法主要依赖于良好的表格结构和足够的先验知识,但在复杂的表格结构以及先验知识不足等情形下难以奏效。针对这类方法的问题,该文通过充分利用表格自身的结构特点,提出了一套可面向大规模数据的基于等价压缩快速聚类的Web表格知识抽取方法,以无监督的聚类方式获得相似形式结构的表格,从而推测其语义结构以抽取知识。实验结果表明,基于等价压缩的快速聚类算法在保持同水平的聚类准确率的前提下,在时间性能上相比传统方法有大幅度的提升,5 000个表格的聚类时间由72小时缩短为20分钟,且在表格聚类后利用表格模板所抽取的知识三元组的准确率也达到了令人满意的结果。 相似文献
4.
5.
基于Web页面链接和标签的聚类方法 总被引:1,自引:0,他引:1
针对目前Web聚类效率和准确率不高的问题,提出一种基于Web页面链接结构和标签信息的聚类方法CWPBLT(clustering web pages based on their links and tags),它是通过分析Web页面中的链接结构和重要标签信息来比较页面之间的相似度,从而对Web站点中的Web页面进行聚类,聚类过程同时兼顾了Web页面结构和页面标签提供的内容信息.实验结果表明,该方法有效地提高了聚类的时间效率和准确性,是对以往仅基于页面主题内容或页面结构聚类方法的改进. 相似文献
6.
社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战.对此,提出基于频繁项集的短文本聚类与主题抽取STC-TE(short text clustering & topic extraction)框架.首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity-based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSA_SC(clusters self-adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类.基于100万条新浪微博文本的实验结果表明,STC-TE框架能够全面准确地抽取主题信息,快速有效地实现海量短文本分类. 相似文献
7.
8.
按照信息抽取粒度不同,本文在基于向量空间模型的句子聚类基础上,提出分两级建立事件模板的方法.相应地,信息抽取过程也分两级,即采用基于中心向量模型的方法抽取句子级信息,采取模式匹配的方法抽取词语或短语级信息.实验结果表明,此方法能对文本信息进行较有效的全面提取,实验结果令人满意. 相似文献
9.
一种基于词聚类的中文文本主题抽取方法 总被引:2,自引:0,他引:2
提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进行特征词抽取,再借助词类生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。实验结果表明,该方法具有较高的抽准率。 相似文献
10.
11.
基于关键词聚类和节点距离的网页信息抽取 总被引:2,自引:0,他引:2
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。 相似文献
12.
按照信息抽取粒度不同,本文在基于向量空间模型的句子聚类基础上,提出分两级建立事件模板的方法。相应地,信息抽取过程也分两级,即采用基于中心向量模型的方法抽取句子级信息,采取模式匹配的方法抽取词语或短语级信息。实验结果表明,此方法能对文本信息进行较有效的全面提取,实验结果令人满意。 相似文献
13.
社团结构分析有助于识别代谢网络中的功能模块,有助于理解代谢网络的结构和功能关系,是代谢网络研究领域的一个重要研究课题。然而,当前的社团结构分析方法均依赖于对网络中的节点进行聚类分析,导致每个节点只能属于某一个社团。采用了一种对复杂网络中的链接进行聚类分析的方法,对高质量金黄色葡萄球菌代谢网络模型的巨强连通体进行了社团结构分析,得到了10个具有生物学意义的功能模块,结果表明链接聚类可用于识别新陈代谢网络中的功能社团。 相似文献
14.
开放关系抽取(Open Relation Extraction, OpenRE)旨在从开放域语料库中抽取关系事实。大多数OpenRE方法通常局限于无监督方法提取命名实体之间的关系模式,然后将语义等价的模式聚类成一个关系簇,但由于缺少监督信息且聚类精度较低,影响了最终的关系抽取效果。为了进一步提高聚类性能,该文提出一种无监督集成聚类框架(Unsupervised Ensemble Clustering,UEC),它将无监督集成学习与基于信息度量的多步聚类算法相结合自主创建高质量伪标签,并以此作为监督信息改进关系特征的学习,从而引导聚类过程,获得更好的标签质量,最后通过多次迭代聚类发现文本中的关系类型。在FewRel和NYT-FB数据集上的实验结果表明,该文方法优于其他主流的基线OpenRE模型,F1值分别达到了65.2%和67.1%。 相似文献
15.
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径聚类的文本信息抽取算法。对网页噪音进行预处理,根据网页的文档对象模型树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验结果表明,该算法运行速度快、准确度高。 相似文献
16.
17.
18.
基于聚类遗传算法的神经网络规则抽取及应用 总被引:1,自引:0,他引:1
提出了一种基于Gabor滤波器和神经网络规则抽取的烘焙面包品质分类方法。滤波器对烘焙面包切片区域灰度图像直接进行小波变换,用能量均值"和均方差!来表示灰度图像的纹理特征,并基于对隐层神经元输出值聚类的遗传算法实现了对面包品质分类的规则抽取。实验结果表明了该方法的实用性和可行性。 相似文献
19.
刘云峰 《计算机应用与软件》2010,27(11)
针对网页噪音和网页非结构化信息抽取复杂度高的问题,提出一种基于标签路径(XPATH)聚类的文本信息抽取算法.该算法首先对网页噪音预处理,根据网页的DOM树结构进行标签路径聚类,通过自动训练的阈值和网页分割算法快速判定网页的关键部分,根据数据块中的嵌套结构获取网页文本抽取模板.对不同类型网站实验表明,该方法获得快速和较高准确度的效果. 相似文献