首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
一种基于数据挖掘的Deep Web模式匹配方法   总被引:1,自引:0,他引:1  
模式匹配是Deep Web异构信息集成中的关键问题.介绍了一种整体性匹配方法,即同时发现大量模式,并一次性进行匹配.主要通过分析和比较两种已经存在的大规模模式匹配原型系统:MGS和DCM,结合它们核心算法的优点,提出一种新的基于数据挖掘技术的算法(Correlated-clustering).该算法先利用积极相关发现组匹配,再通过概念相似度的计算聚类同义属性,最后进行匹配选择.实验结果表明,本算法全面、效率高,充分体现了整体性方法的思想.  相似文献   

2.
为了解决多源异构民航旅客服务数据集成过程中存在多模式匹配的效率不高、精确性不足、完整模式信息获取难度较大等问题,提出了一种基于SimHash和混合相似度的多模式匹配方法。该方法首先基于PMI计算特征单元权重,并通过SimHash算法构造属性列的签名来表示属性特征,以降低特征维度,进而引入K-means++算法对属性聚类并生成候选匹配集。最后基于属性的混合相似度构建属性映射图,以直观的方式展示属性间的匹配关系,同时提高多模式匹配效率。实验结果表明该方法具有可行性,为高效地解决多源异构民航旅客服务数据集成中的模式冲突问题提供新的解决方案。  相似文献   

3.
基于实例的Deep Web数据源结果模式匹配技术   总被引:1,自引:0,他引:1       下载免费PDF全文
针对Deep Web数据源结果模式信息的匹配问题,提出了一种基于实例的结果模式匹配的方法。该方法能够匹配并验证数据源的结果模式属性信息,同时记录数据在结果页面中的结构信息。利用基于查询请求松弛的两段模式匹配方法精确地匹配模式属性,并基于模式属性间共现度信息来提高属性匹配的查全率和查准率。从实验结果分析可以看出,基于实例的方法能够有效地识别数据源模式信息,提高模式属性查全率和查准率。  相似文献   

4.
传统的聚类算法通常将样本间的距离作为相似度的划分标准,因此距离计算方式的选择对于聚类的结果至关重要.但是传统的距离计算方法忽略了不同数据属性特征对聚类的影响.为了解决此问题,论文结合K-means提出了一种基于属性加权的快速K-means算法FAWK.首先,定义了一个反映属性特征差异的离散度函数对属性特征进行加权;其次,根据加权属性特征计算数据属性间的距离,并将所有属性的加权属性距离求和作为样本间的相似性距离;然后,将加权属性距离作为FAWK算法的划分标准对数据进行聚类;最后,将论文算法与现有方法在8个UCI数据集和LAMOST恒星光谱数据集进行实验测试与分析,实验结果表明FAWK算法具有迭代次数少、运行时间短、聚类结果准确率高且更接近真实数据集划分情况的特点.  相似文献   

5.
为降低传统FCM算法的计算复杂性,提高Web用户聚类的效果,文中提出了一种改进的基于特征属性的Web用户模糊聚类算法。首先通过用户访问页面的次数和时间建立Web用户兴趣度矩阵,并根据商品的特征属性值将Web用户兴趣度矩阵映射为用户对特征属性的偏好矩阵,从而有效降低数据稀疏性;然后以此为数据集,对传统的FCM算法进行了改进,将聚类中心分为活动和稳定两种,忽略稳定聚类中的距离计算以降低计算复杂性。最后通过仿真实验证实了新算法的有效性和可行性。  相似文献   

6.
为降低传统 FCM 算法的计算复杂性,提高 Web 用户聚类的效果,文中提出了一种改进的基于特征属性的 Web 用户模糊聚类算法.首先通过用户访问页面的次数和时间建立 Web 用户兴趣度矩阵,并根据商品的特征属性值将 Web 用户兴趣度矩阵映射为用户对特征属性的偏好矩阵,从而有效降低数据稀疏性;然后以此为数据集,对传统的 FCM 算法进行了改进,将聚类中心分为活动和稳定两种,忽略稳定聚类中的距离计算以降低计算复杂性.最后通过仿真实验证实了新算法的有效性和可行性.  相似文献   

7.
Deep Web中用户通常是通过一个统一的查询接口获得其中的数据信息.目前查询接口一般需要形成属性间的模式匹配,为了提高m:n模式匹配的准确率和查全率,本文提出一种基于聚类的复杂模式匹配的算法CSM,从整体上匹配成组属性和同义属性,能够有效的发现m:n匹配,并有较高的准确率.  相似文献   

8.
传统K-Modes算法的一个主要问题是属性选择问题。K-Modes算法在聚类过程中对每一个属性都同等看待,而在实际应用中,很多数据集仅有几个重要属性对聚类起作用。为了考虑不同属性对聚类的不同影响,将K-Modes聚类算法与属性权重的最优化结合起来,提出一种属性自动赋权的FW-K-Modes算法。该算法不仅可以提高传统K-Modes聚类算法的聚类精度,还能分析各维属性对聚类的贡献程度,实现关键属性的选择。对多个UCI数据集进行了实验,验证了该算法的优良特性。  相似文献   

9.
李克潮  凌霄娥 《计算机应用》2013,33(10):2804-2806
针对传统推荐系统数据稀疏、相似性计算方法导致共同评分用户少的问题,提出利用云模型定性概念与定量数值转换的优势,研究云模型、用户聚类的个性化推荐改进算法。用户对项目属性评价的偏好,转换为用户对加权综合云模型表示的数字特征的偏好。利用改进的聚类算法,对评分数据、原始用户属性标准化后的信息进行聚类;同时考虑用户兴趣的变化,结合用户之间项目属性评价的综合云模型的相似度、用户对项目评分的聚类、用户属性聚类这三种方法产生的邻居用户的并集进行推荐。理论分析和实验结果表明,提出的改进算法不但解决数据稀疏性带来的共同评分用户少的弊端,即使是在新用户的情况下,仍能获得较低的平均绝对误差和平均平方误差  相似文献   

10.
模式匹配在很多数据库相关领域中有着广泛的应用,例如数据集成、数据空间以及数据仓库。传统的匹配技术主要研究两个属性之间的匹配任务,而忽略了多个属性间的匹配任务。针对这一问题,提出一种基于DBSCAN聚类算法的多模式集成技术。该方法将关注多个属性之间语义对应关系的发现,相对于两个属性之间对应关系的发现,这将是一个更加复杂的问题。主要研究思路是将每个属性看成向量空间中的一个点,然后利用聚类技术将这些属性划分到不同的集合中,在同一个聚类中的属性具有相似的语义。同时,利用Web结构信息源来提高模式匹配结果的质量。最后,通过大量的实验来验证该方法是有效的并具有较好的性能。  相似文献   

11.
《Computers & Geosciences》2006,32(5):604-614
We propose a numerical method for classification and characterization of landforms on Mars. The method provides an alternative to manual geomorphic mapping of the Martian surface. Digital elevation data is used to calculate several topographic attributes for each pixel in a landscape. Unsupervised classification, based on the self-organizing map technique, divides all pixels into mutually exclusive and exhaustive landform classes on the basis of similarity between attribute vectors. The results are displayed as a thematic map of landforms and statistics of attributes are used to assign semantic meaning to the classes. This method is used to produce a geomorphic map of the Terra Cimmeria region on Mars. We assess the quality of the automated classification and discuss differences between results of automated and manual mappings. Potential applications of our method, including crater counting, landscape feature search, and large scale quantitative comparisons of Martian surface morphology, are identified and evaluated.  相似文献   

12.
针对现有行人再识别算法在处理图像分辨率低、光照差异、姿态和视角多样等情况时,准确率低的问题,提出了基于空间注意力和纹理特征增强的多任务行人再识别算法。算法设计的空间注意力模块更注重与行人属性相关的潜在图像区域,融入属性识别网络,实现属性特征的挖掘;提出的行人再识别网络的纹理特征增强模块通过融合不同空间级别所对应的全局和局部特征,减弱了光照、遮挡等对行人再识别的干扰;最后通过多任务加权损失函数将属性特征和行人特征巧妙融合,避免了由属性异质性造成的再识别精度损失。实验结果表明,该方法在Market-1501和DukeMTMC-reID两大主流行人再识别数据集上的平均精度分别可以达到81.1%和70.1%。  相似文献   

13.
针对评分数据稀疏和单一评分相似性计算不准确导致推荐质量不高的问题,提出一种面向用户兴趣密度分布的协同过滤推荐算法.在计算项目类别相似度的同时,引入类别的信息熵以确定项目之间距离,在此基础上采用Parzen窗估计方法获取用户在整个项目空间上的兴趣密度分布,最后结合用户属性差异性和兴趣密度之间相对熵以确定目标用户的最近邻居用户集.实验结果表明,该算法在避免数据填充所引入误差的同时,有效提升数据稀疏情况下的推荐质量.  相似文献   

14.
属性对齐的目标是发现异构知识图谱中表示同一概念的属性之间的对应关系,是实现跨图谱知识融合的关键技术之一。现有模型通常利用基于规则和词嵌入的方法进行属性对齐,但这些方法仍存在以下两个问题:相似性度量不全面和属性实例信息未被充分利用。针对上述问题,该文提出了基于多相似性度量的属性对齐模型,通过多个角度设计相似性度量方法来获取属性间的相似性特征,并利用机器学习模型进行特征聚合。同时,为了充分利用属性的实例信息,在上述模型框架下提出了属性实例集合表示学习算法,通过将属性实例集合编码为向量来提取集合间的主题相似性,从而辅助属性对齐。在属性对齐数据集上的实验验证了模型的有效性,实验还表明,集合的表示学习算法能够有效捕捉属性实例的主题特征,并显著提升属性对齐结果。  相似文献   

15.
当前的行人再识别在度量学习上采用马氏距离相似度函数, 该相似度函数只与特征差分空间有关, 忽略了一对行人图像中每个个体的外观特征, 针对上述问题, 提出了通过学习一个双向关系相似度函数(Bidirectional Relationship Similarity Function, BRSF), 来计算一对行人图像的相似度. BRSF不但描述了一对行人图像的互相关关系, 而且关联了一对行人图像的自相关关系. 该文利用KISSME(Keep It Simple and Straightforward Metric)算法的思想进行相似度函数学习, 把一对样本特征的自相关关系和互相关关系用高斯分布来表示, 通过把最终高斯分布的比值转换为BRSF的形式, 得到一个对背景、视角、姿势的变化具有鲁棒性的相似度函数. 在VIPeR, QMUL GRID两个行人再识别数据集上的实验结果表明, 本文算法具有较高的识别率, 其中在VIPeR数据集上, Rank1达到了53.21%.  相似文献   

16.
针对在线用户评论中产品特征的提取和聚类问题进行了研究,提出一种改进的SimRank算法,将情感词-特征对放入二分网中,在二分网中使用改进后的SimRank算法计算特征词之间的相似度;再通过谱聚类算法对特征相似度进行聚类,提取网络产品的特征集合。以某电脑评论为例,从中提取情感词-特征对进行研究,实验结果显示,改进后的算法准确率更高。改进后的特征相似度检测方法可以作为检测特征相似度的有效方法。实验采用在线产品的评论语料,实验结果表明使用改进后的SinRank相似度对特征词进行聚类提取出特征更加准确。  相似文献   

17.
为了解决图像匹配算法中存在的匹配效率低、时间复杂度与计算量高等问题,通过结合稀疏表示和拓扑相似性,提出了一种图像匹配算法。该算法先对图像进行特征检测,计算轮廓相似度,找到待匹配图像中相似的最大轮廓区域,用稀疏编码对轮廓内特征进行稀疏表示,建立稀疏模型,将复杂特征变得单一化,但又不影响特征的分类方式,将相同类别或者相同属性的特征归为同一特征集,结合稀疏表示和邻域互信息的类属属性学习。计算得到变换矩阵,用以表示图像。利用结构化的拓扑相似性,对轮廓内外相关联的点进行优化。最后,分别从主观评价和客观评价两个方面对算法进行分析,结果表明提出的新算法与其他图像匹配算法相比较,具有明显匹配精度与效果,提出的算法在提高匹配效率及复杂度等方面具有较好优势。  相似文献   

18.
由于网络混合属性集的冗余数据量多,影响数据检测的查全率,为此提出结合粗糙集理论的网络大数据混合属性特征检测方法。首先构建一个四元组,利用四元组的任意邻域信息测算其长度函数,以判断信息特征的相似性,结合粗糙集理论求解相似信息特征的邻域熵,以检测并分类重复数据属性。为优化数据分类效率,引入支持向量机分类思想,将大数据混合属性的分类问题变换为线性可分问题,实现网络大数据混合属性特征检测与分类。实验结果表明,所提方法能够有效根据数据特征筛选出无关数据信息,使用经过训练后的分类装置对约简后的特征集进行分类,与基于特征和分类器参数组合优化的网络属性特征检测方法比较,证明了所提方法的有效性,为网络大数据混合特征检测技术提供一种新的有效解决方式。  相似文献   

19.
基于特征相似度的贝叶斯网络入侵检测方法   总被引:1,自引:0,他引:1       下载免费PDF全文
传统贝叶斯入侵检测方法未考虑属性和属性权值对检测结果的影响。为此,提出基于特征相似度的贝叶斯网络入侵检测方法。利用相似度对网络连接数据的属性特征进行选择,抽取其关键特征,并降低属性的冗余度,以优化朴素贝叶斯的分类性能。实验结果表明,该方法能降低分类数据的维数,提高分类的准确率。  相似文献   

20.
融合用户评分与显隐兴趣相似度的协同过滤推荐算法   总被引:1,自引:0,他引:1  
协同过滤算法是推荐系统中使用最广泛的算法,其核心是利用某兴趣爱好相似的群体来为用户推荐感兴趣的信息。传统的协同过滤算法利用用户-项目评分矩阵计算相似度,通过相似度寻找用户的相似群体来进行推荐,但是由于其评分矩阵的稀疏性问题,对相似度的计算不够准确,这间接导致推荐系统的质量下降。为了缓解数据稀疏性对相似度计算的影响并提高推荐质量,提出了一种融合用户评分与用户显隐兴趣的相似度计算方法。该方法首先利用用户-项目评分矩阵计算用户评分相似度;然后根据用户基本属性与用户-项目评分矩阵得出项目隐性属性;之后综合项目类别属性、项目隐性属性、用户-项目评分矩阵和用户评分时间,得到用户显隐兴趣相似度;最后融合用户评分相似度和用户显隐兴趣相似度得到用户相似度,并以此相似度寻找用户的相似群体以进行推荐。在数据集Movielens上的实验结果表明,相比传统算法中仅使用单一的评分矩阵来计算相似度,提出的新相似度计算方法不仅能够更加准确地寻找到用户的相似群体,而且还能够提供更好的推荐质量。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号