首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 531 毫秒
1.
近几年,网络被在线数据库迅速深化。在深网中,大量的资料提供了丰富的数据模式。这些模式详细说明了它们的目标领域和查询性能。因此对大规模数据的整合是当前面临的挑战。在数据挖掘中聚类分析是一个重要方法,为了发现通过这种统计分布管理的聚类,提出了一个新的目标函数:模型-区别(model-differentiation)。实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料,区别模型函数胜过现有的凝聚的层次聚类。  相似文献   

2.
陈娟  王贤  黄青松 《现代计算机》2006,(9):19-21,62
近几年,网络被在线数据库迅速地深化.在深网中,大量的资料提供了丰富的数据模式,这些模式详细说明了它们的目标领域和查询性能,因此对大规模数据的整合是当前面临的挑战.在数据挖掘中,聚类分析是一个重要方法.本文论述通过查询接口采用凝聚层次聚类方法聚类结构化的Web资源,并采用先聚类后分类的方法稍加改进.实验显示对于聚类Web查询模式,凝聚的层次聚类能正确地组织资料.  相似文献   

3.
在对用户兴趣模型探讨的基础上,提出了一种基于概念的用户兴趣模型,用于区别用户兴趣的大小.讨论了基于链接的查询聚类算法,并针对该算法的不足提出了一种基于概念的聚类算法,该算法根据用户兴趣模型建立查询-概念二分图,然后计算图中查询顶点间的概念相似度,并将概念相似度最高的查询顶点进行合并以实现聚类.设计实现了一个基于Web数据挖掘的个性化搜索引擎系统,对系统的个性化查询进行了测试,并对比分析了链接聚类和概念聚类的实验结果.  相似文献   

4.
针对当前信息资源描述框架(RDF)检索过程中存在的内存使用过大及检索效率低等问题,提出一个RDF图的层次聚类语义检索模型,设计并实现了相应的检索方法。首先从RDF图中抽取实体数据,在本体库的指导下,通过层次聚类,将复杂的图形结构转换为适合检索的树型结构;根据在树中查找到的目标对象,确定其在RDF图中的位置,进行语义扩充查询。检索模型的构建缩小了检索范围,从而提高了检索效率,其语义扩充查询还可以得到较好的查全率。  相似文献   

5.
传统的凝聚型层次聚类在分裂或合并类时如果没有很好地作出决定,就有可能导致低质量的聚类结果,针对这一缺点,提出一种基于蚁群优化算法的凝聚型层次聚类算法。该算法先利用蚁群优化算法的状态转移规则决定凝聚型层次聚类中下一个将要合并的数据点,再利用信息素更新规则寻找聚类的最优路径,最后获得全局最优的高质量层次聚类结果。该优化算法在人工数据集和UCI数据集上的仿真实验结果表明,相对于传统的聚类算法,该算法的准确率更高,聚类效果更好。  相似文献   

6.
刘建伟  李卫民 《计算机科学》2009,36(11):148-151
传统的数据库管理系统和数据查询算法不能很好地支持对流数据的查询已经被广泛认识,因而需要研究新的流数据模式查询算法.提出了一种基于摘要技术的在线快速混合模型流数据聚类算法,该算法为分阶段混合模型聚类过程.算法首先时最初到达的流数据用多维网格结构进行划分,对划分形成的每一个单元进行数据摘要,提取足够的统计信息.对该摘要运行基于模型的贪心聚类算法,聚类形成的混合模型的摘要信息存储在永久摘要数据库中,从而形成初始聚类混合模型;在聚类模型的维持过程中,当不断有流数据到达时,对到达的数据块用多维网格结构进行划分,对划分形成的每一个单元提取足够的摘要信息.对该摘要运行基于模型的贪心聚类算法形成聚类混合模型.在判断是否可以把新到达的模型合并到现有的混合模型中去时,提出了三种合并标准.实验表明,该算法减少了分类误差,其速度也比传统的基于模型的贪心聚类算法大大加快.  相似文献   

7.
在DataCube语义特性及模式中维的层次性基础上提出了多维数据之间的等价关系≡HCov,对DataCube进行层次聚类·该方法的优点在于用等价类的方法保存了所有聚集记录,同时定义了等价类之间的关系,以保存聚集记录之间的层次信息·理论分析和实验证明,该方法不但节省了存储空间,而且利用聚类信息及层次信息,可高效的进行各种OLAP查询,以及支持多维数据上的上钻下钻、旋转等Cube语义操作·同时,为OLAP查询导航、OLAP查询行为分析的实现提供了可能·  相似文献   

8.
一种基于统计语义聚类的查询语言模型估计   总被引:2,自引:0,他引:2  
如何有效生成文档聚类并使用聚类信息提高检索效果是信息检索中的重要研究课题.如果假设文档中存在若干隐含的独立主题,那么文档可以看成是由这些隐含的独立主题混合噪声相互作用的结果.基于这个假设提出了一种基于独立分量分析的语义聚类技术,试图借助于独立分量分析的良好主题区分能力,将一组文档按照实际隐含的主题在语义空间上聚类.在语言模型的框架下,语义主题聚类将由用户初始查询按照一定的度量方式激活.利用激活语义聚类的信息估计一个反馈语义主题模型,并与初始查询模型一起形成新的查询模型.在5个TREC数据集上的实验结果表明:基于统计语义聚类估计的查询模型相比传统的查询模型以及其他基于聚类的语言模型在检索性能上有显著性提高.其主要原因是应用了和用户查询最相似的语义聚类信息来估计查询模型.  相似文献   

9.
庞宁  张继福  秦啸 《自动化学报》2018,44(3):517-532
采用多属性频率权重以及多目标簇集质量聚类准则,提出一种分类数据子空间聚类算法.该算法利用粗糙集理论中的等价类,定义了一种多属性权重计算方法,有效地提高了属性的聚类区分能力;在多目标簇集质量函数的基础上,采用层次凝聚策略,迭代合并子簇,有效地度量了各类尺度的聚类簇;利用区间离散度,解决了使用阈值删除噪音点所带来的参数问题;利用属性对簇的依附程度,确定了聚类簇的属性相关子空间,提高了聚类簇的可理解性.最后,采用人工合成、UCI和恒星光谱数据集,实验验证了该聚类算法的可行性和有效性.  相似文献   

10.
维度灾难、含有噪声数据和输入参数对领域知识的强依赖性,是不确定数据聚类领域中具有挑战性的问题。针对这些问题,基于相似性度量和凝聚层次聚类思想的基础上提出了高维不确定数据高效聚类HDUDEC(High Dimensional Uncertain Data Efficient Clustering)算法。该算法采用一个能够准确表达不确定高维对象之间的相似度的度量函数计算出对象之间的相似度,然后根据相似度阈值自底向上进行聚类分析。实验证明新的算法需要的先验知识较少、可以有效地过滤噪声数据、可以高效的获得任意形状的高维不确定聚类结果。  相似文献   

11.
在Deep Web页面的背后隐藏着海量的可以通过结构化的查询接口进行访问的数据源。将这些数据源按所属领域进行组织划分,是DeepWeb数据集成中的一个关键步骤。已有的划分方法主要是基于查询接口模式和提交查询返回结果,存在查询接口特征难以完全抽取和提交数据库查询效率不高等问题。提出了一种结合网页文本信息,基于频繁项集的聚类方法,根据数据源查询接口所在页面的标题、关键词和提示文本,将数据源按照领域进行聚类,有效解决了传统方法中依赖查询接口特征以及文本模型的高维性问题。实验结果表明该方法是可行的,具有较高的效率。  相似文献   

12.
Traditional information search in which queries are posed against a known and rigid schema over a structured database is shifting toward a Web scenario in which exposed schemas are vague or absent and data come from heterogeneous sources. In this framework, query answering cannot be precise and needs to be relaxed, with the goal of matching user requests with accessible data. In this paper, we propose a logical model and a class of abstract query languages as a foundation for querying relational data sets with vague schemas. Our approach relies on the availability of taxonomies, that is, simple classifications of terms arranged in a hierarchical structure. The model is a natural extension of the relational model in which data domains are organized in hierarchies, according to different levels of generalization between terms. We first propose a conservative extension of the relational algebra for this model in which special operators allow the specification of relaxed queries over vaguely structured information. We also study equivalence and rewriting properties of the algebra that can be used for query optimization. We then illustrate a logic-based query language that can provide a basis for expressing relaxed queries in a declarative way. We finally investigate the expressive power of the proposed query languages and the independence of the taxonomy in this context.  相似文献   

13.
基于本体的Deep Web查询接口分类   总被引:1,自引:0,他引:1  
目前对于分类问题,主要工作集中在文本或Web文档的分类研究,而很少有对deep Web查询接口的分类研究.deep Web源包括查询接口和查询结果,大量的deep Web源的存在,对它们查询接口的分类是通向deep Web分类集成和检索的关键步骤.本分提出一种deep Web本体分类方法,包括:分类本体的概念模型和由此产生的deep Web空间向量模型(VSM).试验表明,这种分类方法具有良好的分类效果,平均准确率达到91.6%,平均查全率达到92.4%.  相似文献   

14.
Matching query interfaces is a crucial step in data integration across multiple Web databases. Different types of information about query interface schemas have been used to match attributes between schemas. Relying on a single aspect of information is not suffcient and the matching results of individual matchers are often inaccurate and uncertain. The evidence theory is the state-of-the-art approach for combining multiple sources of uncertain information. However, traditional evidence theory has the limita...  相似文献   

15.
Many structured peer-to-peer (P2P) systems supported by distributed hash table (DHT) schemas have been proposed recently to improve the scalability of distributed virtual application systems. By organizing the peers based on interconnection topologies, existing proposed schemas are purely based on the logical relationship without knowledge of the physical networks. In this paper, we propose a new structured DHT schema, which receives routing information not just from virtual neighbors in P2P overlay network, but also from nearby physical neighbors. The average degree of our model is 5, the diameter is logarithmic. The simulation shows that our model achieves shorter query path length, higher clustering, and better robustness than other overlay networks which have the same level of degree and diameter.  相似文献   

16.
Many structured peer-to-peer (P2P) systems supported by distributed hash table (DHT) schemas have been proposed recently to improve the scalability of distributed virtual application systems. By organizing the peers based on interconnection topologies, existing proposed schemas are purely based on the logical relationship without knowledge of the physical networks. In this paper, we propose a new structured DHT schema, which receives routing information not just from virtual neighbors in P2P overlay network, but also from nearby physical neighbors. The average degree of our model is 5, the diameter is logarithmic. The simulation shows that our model achieves shorter query path length, higher clustering, and better robustness than other overlay networks which have the same level of degree and diameter.  相似文献   

17.
基于本体的关系数据集成的查询处理   总被引:1,自引:1,他引:0  
王进鹏  张亚非  苗壮 《计算机科学》2010,37(12):134-137
为实现异构关系数据库的语义集成,针对传统集成技术存在的问题,在对语义网等相关技术进行分析的基础上,研究基于本体的关系数据集成系统中的查询处理问题,提出了一种基于本体的关系数据库集成框架。设计了基于本体的关系数据的描述方法,使用本体作为集成的全局模式来描述关系模式的语义。设计了查询重写算法,该算法可以将基于全局模式的SPARQL查询重写为针对具体关系数据库的查询,从而实现对异构关系数据库的集成。实验表明,该算法具有良好的可扩展性。  相似文献   

18.
Searching XML data with a structured XML query can improve the precision of results compared with a keyword search. However, the structural heterogeneity of the large number of XML data sources makes it difficult to answer the structured query exactly. As such, query relaxation is necessary. Previous work on XML query relaxation poses the problem of unnecessary computation of a big number of unqualified relaxed queries. To address this issue, we propose an adaptive relaxation approach which relaxes a query against different data sources differently based on their conformed schemas. In this paper, we present a set of techniques that supports this approach, which includes schema-aware relaxation rules for relaxing a query adaptively, a weighted model for ranking relaxed queries, and algorithms for adaptive relaxation of a query and top-k query processing. We discuss results from a comprehensive set of experiments that show the effectiveness and the efficiency of our approach.  相似文献   

19.
Deep Web数据源聚类与分类   总被引:1,自引:0,他引:1  
随着Internet信息的迅速增长,许多Web信息已经被各种各样的可搜索在线数据库所深化,并被隐藏在Web查询接口下面.传统的搜索引擎由于技术原因不能索引这些信息--Deep Web信息.本文分析了Deep Web查询接口的各种类型,研究了基于查询接口特征的数据源聚类方法和基于聚类结果的数据源分类方法,讨论了从基于规则与线性文档分类器中抽取查询探测集的规则抽取算法和Web文档数据库分类的查询探测算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号