首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 42 毫秒
1.
非共现数据是指不符合联合概率分布,而是符合一个未知函数的数据.将非共现数据转化为共现形式后可以采用熵来定量度量信息并进行聚类.但是,现有算法假设非共现数据的各个属性特征对聚类贡献均匀,没有考虑代表性属性和不相关(冗余)属性对聚类效果的不同影响.因此,本文提出一个非共现数据的两阶段加权IB算法(TSAW-sIB),在非共现数据共现转化的两个阶段,从"非共现/共现/联合"三个视角观察非共现数据,突出代表性属性,抑制冗余属性,获得更能准确反映非共现数据特征的数据表示并进行聚类.实验表明,TSAW-sIB算法优于ROCK、COOLCAT和LIMBO算法.  相似文献   

2.
针对目前大多数分类器简单抛弃缺失数据的问题,基于朴素信念分类提出了一种有缺失值实例的加权保守推理规则的分类算法.以数据集特征属性与决策属性之间的相关系数作为权值,根据有缺失值实例加权保守推理规则对有非随机缺失属性的待分类实例所有可能的类别进行选择.实验结果表明,提出的基于有缺失值实例的加权保守推理规则分类算法有效地提高了分类性能,是一种有效的缺失数据集分类算法.  相似文献   

3.
序列化信息瓶颈 (Sequential information bottleneck, sIB) 算法是一种广泛使用的聚类算法。该算法采用联合概率模型表示数据,对样本和属性的相关性有较好的表达能力。但是sIB算法采用的联合概率模型假设数据各个属性对聚类的贡献度相同,从而削弱了聚类效果。本文提出了赋权联合概率模型概念,采用互信息度量属性重要度,并构建赋权联合概率模型来优化数据表示,从而达到突出代表性属性、抑制冗余属性的目的。UCI数据集上的实验表明,基于赋权联合概率模型的WJPM_sIB算法优于sIB算法,在F1评价下,WJPM_sIB算法聚类结果比sIB算法提高了5.90%。  相似文献   

4.
已有的非平衡数据分类算法主要采取直接对损失函数进行加权的方法.文中提出一种加权边缘的hinge 损失函数并证明它的贝叶斯一致性,得到加权边缘支持向量机算法(WMSVM),并给出类似于SMO的求解方法.实验结果表明WMSVM在一些数据库上是有效的,从而从理论和实验上说明基于加权边缘的损失函数方法是已有代价敏感方法的一种较好补充.  相似文献   

5.
属性知识库扩展研究中已有的开放式信息抽取方法都十分依赖深度句法分析或有效的词典规则,在短文本处理上效果较差,召回率较低.文中提出基于词共现图的属性知识库迭代自增式扩展算法,利用属性与属性值的共现关系扩展知识库,并设计基于图的社区发现算法,找出社区的核心节点.最后,设计基于卷积神经网络的模型对抽取结果进行去噪.在两个真实数据集上的实验表明,文中方法在抽取质量上优于现有方法.  相似文献   

6.
数据发布中面向多敏感属性的隐私保护方法   总被引:12,自引:0,他引:12  
现有的隐私数据发布技术通常关注单敏感属性数据,直接应用于多敏感属性数据会导致大量隐私信息的泄漏.文中首次对多敏感属性数据发布问题进行详细研究,继承了基于有损连接对隐私数据进行保护的思想,提出了针对多敏感属性隐私数据发布的多维桶分组技术——MSB(Multi-Sensitive Bucketization).为了避免高复杂性的穷举方法,首先提出3种不同的线性时间的贪心算法:最大桶优先算法(MBF)、最大单维容量优先算法(MSDCF)和最大多维容量优先算法(MMDCF).另外,针对实际应用中发布数据的重要性差异,提出加权多维桶分组技术.实际数据集上的大量实验结果表明,所提出的前3种算法的附加信息损失度为0.04,而隐匿率都低于0.06.加权多维桶分组技术对数据拥有者定义的重要信息的可发布性达到70%以上.  相似文献   

7.
针对机器学习领域的一些分类算法不能处理连续属性的问题,提出一种基于词出现和信息增益相结合的多区间连续属性离散化方法.该算法定义了一个离散化过程,离散化了采用传统信息检索的加权技术生成的非二值特征词空间,然后判断原特征空间中每个特征词属于或不属于某给定子区间,将问题转换成二值表示方式,以使得这些分类算法适用于连续属性值.实验结果表明,该算法离散过程简单高效,预测精度高,可理解性强.  相似文献   

8.
传统的属性约简方法将整个数据集一次性装入内存,很难适应大数据背景下的数据分析。为此文中提出基于粒计算与区分能力的属性约简算法。该算法运用统计学中的分层抽样技术,拆分原始大数据集为多个样本子集(粒),在每个粒上运用属性的区分能力进行属性约简,最后将各粒约简结果进行加权融合,得到原始大数据集的属性约简结果。实验表明该算法对海量数据集进行属性约简的可行性和高效性。  相似文献   

9.
徐鲲鹏  陈黎飞  孙浩军  王备战 《软件学报》2020,31(11):3492-3505
现有的类属型数据子空间聚类方法大多基于特征间相互独立假设,未考虑属性间存在的线性或非线性相关性.提出一种类属型数据核子空间聚类方法.首先引入原作用于连续型数据的核函数将类属型数据投影到核空间,定义了核空间中特征加权的类属型数据相似性度量.其次,基于该度量推导了类属型数据核子空间聚类目标函数,并提出一种高效求解该目标函数的优化方法.最后,定义了一种类属型数据核子空间聚类算法.该算法不仅在非线性空间中考虑了属性间的关系,而且在聚类过程中赋予每个属性衡量其与簇类相关程度的特征权重,实现了类属型属性的嵌入式特征选择.还定义了一个聚类有效性指标,以评价类属型数据聚类结果的质量.在合成数据和实际数据集上的实验结果表明,与现有子空间聚类算法相比,核子空间聚类算法可以发掘类属型属性间的非线性关系,并有效提高了聚类结果的质量.  相似文献   

10.
离群点检测是数据挖掘领域的一个重要的研究方向.针对高维数据空间中离群数据的挖掘速度和准确度的问题,提出一种基于单元格的离群点检测算法.该算法在高维数据空间中对数据进行降维,并且将数据依据属性权重划分成若干空间单元,从而减少查询次数,提高离群数据的挖掘速度.另外,通过对属性的加权处理能够更有效地突出属性的特殊性,从而提高挖掘的准确度.理论分析和实验结果表明了该方法是有效可行的.  相似文献   

11.
针对目前电子商务系统中存在的资源瓶颈问题,结合网格技术的应用背景,提出基于的网格的电子商务系统的应用模型。本文对其产生的原因、该系统的特点,该系统的应用平台、工作流程进行了详细的阐述。目的是实现网格虚拟环境下电子商务管理系统的高性能资源共享和协同工作,消除信息孤岛和资源孤岛,实现管理资源、计算资源、存储资源、数据资源、信息资源、软件资源、网络资源、通信资源、知识资源、专家资源等资源的全面共享,提高工作效率。  相似文献   

12.
针对目前电子商务系统中存在的资源瓶颈问题,结合网格技术的应用背景,提出基于的网格的电子商务系统的应用模型。本文对其产生的原因、该系统的特点,该系统的应用平台、工作流程进行了详细的阐述。目的是实现网格虚拟环境下电子商务管理系统的高性能资源共享和协同工作,消除信息孤岛和资源孤岛,实现管理资源、计算资源、存储资源、数据资源、信息资源、软件资源、网络资源、通信资源、知识资源、专家资源等资源的全面共享,提高工作效率。  相似文献   

13.
Recent years have witnessed a growing interest in the information bottleneck theory. Among the relevant algorithms in the extant literature, the sequential Information Bottleneck (sIB) algorithm is recognized for its balance between accuracy and complexity. However, like many other optimization techniques, it still suffers from the problem of getting easily trapped in local optima. To that end, our study proposed an iterative sIB algorithm (isIB) based on mutation for the clustering problem. From initial solution vectors of cluster labels generated by a seeding the sIB algorithm, our algorithm randomly selects a subset of elements and mutates the cluster labels according to the optimal mutation rate. The results are iteratively optimized further using genetic algorithms. Finally, the experimental results on the benchmark data sets validate the advantage of our iterative sIB algorithm over the sIB algorithm in terms of both accuracy and efficiency.  相似文献   

14.
The Information Bottleneck principle provides a systematic method to extract relevant features from complex data sets, and it models features extraction as data compression and quantifies the relevance of extracted feature by how much information it preserved about a specified feature. How to construct an optimal solution to IB remains a problem. The current Information Bottleneck (IB) algorithms only utilize the information between element pairs, and ignore the information among the neighborhood of elements. This is one of the major reasons for most IB algorithms’ failure to preserve as much relative information as possible, which further limits IB applicability in many areas. In this paper, we present the concept of density connectivity component, by which the information loss among the neighbors of an element, rather than the information loss between paired elements, can be considered. Then, we introduce this concept into the current agglomerative IB algorithm (aIB) and sequential IB algorithm (sIB), and propose two density-based IB algorithms, DaIB and DsIB. The experiment results on the benchmark data sets indicate that the DaIB and DsIB algorithm can preserve more relevant information and achieve higher precision than the aIB and sIB algorithm, respectively.  相似文献   

15.
本文参照在自动分类问题中一种常见的基于Kullback-Leibler距离的特征聚类算法,针对其特征压缩造成的性能损失而导致分类性能下降的问题提出了改进,结合模糊数学的思想,提出了一种基于特征模糊相关的特征聚类算法FFC,最后在本文的一个应用系统AGENT上给出实验数据,并比较了两种算法的差异.  相似文献   

16.
瓶颈TSP的蚂蚁系统优化   总被引:17,自引:1,他引:16  
马良 《计算机工程》2001,27(9):24-25
对瓶颈TSP问题给出了一种融合局部搜索机制和MAX-MIN策略的蚂蚁优化算法,在通用微机上求解了一系列实例问题,获得了满意的效果。  相似文献   

17.
以IBM的AIX5操作系统为例,试图找到造成业务软件性能下降的实际因素,只有找到了软件运行的瓶颈所在,才有可能真正解决应用系统的性能问题.  相似文献   

18.
In order to explore the selective attention mechanism and the dual-task information-processing model, two experiments were carried out involving a visual search task and a visual detection task. The results showed that the early period of attention selection is controlled in a bottom-up manner. With respect to the dual-task information-processing model, the results showed that the central information-processing model would include a sequence model for tasks that use the same perception resource, causing a bottleneck in information processing. Our study suggests that a simple and prominent signal could be used to attract drivers' attention prior to the emergent events. Moreover, any human-machine interface design in driving-associated systems should consider this information-processing bottleneck. With respect to signal type, targeted and easy to categorize were two useful elements to consider.  相似文献   

19.
分析了莱钢干熄焦发电系统电缆目前存在的问题现状,提出了设计方案,防止了接地、爆炸事故的发生,产生了良好效果。  相似文献   

20.
分析了分布式应用与网络性能拓扑结构的关系,以及利用端到端测量进行拓扑划分的可行性和实用性;然后通过测量瓶颈链路的方法对节点进行分组划分以缩小集合节点个数,再具体分析利用性能相关性探测节点集合的树型拓扑结构;最后通过实验模拟检验了这一拓扑探测方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号