首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 734 毫秒
1.
隐私保护数据挖掘(PPDM)利用匿名化等方法使数据所有者在不泄露隐私信息的前提下,安全发布在数据挖掘中有效可用的数据集。k-匿名算法作为PPDM研究使用最广泛的算法之一,具有计算开销低、数据形变小、能抵御链接攻击等优点,但是在一些k-匿名算法研究中使用的数据可用性评估模型的权重设置不合理,导致算法选择的最优匿名数据集在后续的分类问题中分类准确率较低。提出一种使用互信息计算权重的互信息损失(MI Loss)评估模型。互信息反映变量间的关联关系,MI Loss评估模型根据准标识符和标签之间的互信息计算权重,并通过Loss公式得到各个准标识符的信息损失,将加权后的准标识符信息损失的和作为数据集的信息损失,以弥补评估模型的缺陷。实验结果证明,运用MI Loss评估模型指导k-匿名算法能够明显降低匿名数据集在后续分类中的可用性丢失,相较于Loss模型和Entropy Loss模型,该模型分类准确率提升了0.73%~3.00%。  相似文献   

2.
为提高匿名化后数据的可用性,给出了一种加权确定惩罚模型作为数据有用性的度量方法,提出了两种基于局部聚类的数据匿名化算法。通过真实数据实验评估,该算法能够很好地降低实现匿名保护时概化处理所带来的信息损失。  相似文献   

3.
唐鹏飞  张贤勇  莫智文 《计算机应用研究》2021,38(11):3300-3303,3309
区间集决策信息表拓展了经典决策信息表,但其属性约简研究较少.针对区间集决策信息表存在的问题,采用模型正域及相关依赖度提出属性约简及其启发式约简算法.在区间集粗糙集模型中,定义关于决策分类的正域与依赖度,证明粒化单调性等性质.提出基于依赖度的属性约简,设计启发式约简算法.实例分析与数据实验表明,设计的基于依赖度的启发式约简算法是有效的,所得结果有利于依赖学习与特征优化.  相似文献   

4.
基于粒计算的决策树并行算法的应用   总被引:1,自引:0,他引:1  
针对传统的决策树分类算法不能有效解决海量数据挖掘的问题,结合并行处理模型M apReduce ,研究基于粒计算的ID3决策树分类的并行化处理方法。基于信息粒的二进制表示来构建属性的二进制信息粒向量,给出数据集的二进制信息粒关联矩阵表示;基于二进制信息粒关联矩阵,提出属性的信息增益的计算方法,设计基于M apReduce的粒计算决策树并行分类算法。通过使用标准数据集和实际气象领域的雷电真实数据集进行测试,验证了该算法的有效性。  相似文献   

5.
大数据挖掘时代,数据丰富与知识贫乏之间的矛盾日趋突出.粒计算是解决大规模、复杂问题的新范式,其核心任务是粒化.粗糙集是经典粒计算模型之一,在数据挖掘领域已广泛应用.遗憾的是基于不可区分关系的粒化条件很严格,造成粗糙集在粒化定量数据时会失效.因此,本文首先从一维属性的区间划分出发,定义多维属性组合生成的超区间粒,并基于超区间粒提出新颖的粗糙集模型有效地将定量数据和定性数据统一到一个框架;其次,从决策属性的视角考虑条件属性之间的相关性提出基于密度峰值聚类的超区间粒化算法,算法输出的超区间粒不仅是论域的划分,且每个划分块都是同质信息粒;最后,受近邻分类算法的启发,融合多数投票分类机制和近邻分类准则基于超区间粒提出自适应近邻分类模型(IGANN),并在UCI数据集上与8个经典分类模型进行实验对比,4个指标下的对比结果均表明IGANN模型具有更强的稳定性和更高的鲁棒性.  相似文献   

6.
应用分类方法进行聚类评价*   总被引:1,自引:1,他引:0  
针对现有基于几何结构的聚类有效性指标不能有效解决不同结构数据的聚类结果评价问题,提出了一种使用分类对聚类结果进行评价的方法。该方法把聚类得到的对象类标志作为分类问题的已知类标志,使用交叉验证法对数据集重新分类,通过对比聚类结果与分类结果之间的差异来衡量聚类有效性。一个易于聚类的数据集的结构意味着也容易进行分类,对模拟数据和真实数据的实验和分析验证了该方法的可行性和有效性。  相似文献   

7.
针对现有模糊信息粒化方法构建的高层信息粒不能完全包含底层数据信息、预测时间范围受限等问题,提出了一种插值梯形模糊信息粒化方法来预测瓦斯浓度趋势。对原始瓦斯浓度时间序列进行离散化形成若干子序列,计算每个子序列窗口的最大值与最小值形成梯形上沿的边界,通过对每个子序列窗口数据进行插值计算,形成新的瓦斯浓度时间序列窗口,对新的瓦斯浓度时间序列窗口采用数据遍历寻优的方式计算梯形下沿的边界,进而形成瓦斯浓度粒化区间序列。针对现有评价方法无法准确评价信息粒化效果的问题,提出了一种基于权值的粒化评价方法,通过加权均方根误差对粒化效果进行整体评价。实验结果表明,通过该方法对信息进行粒化的效果明显优于现有模糊粒化方法,并且粒化效果不随粒化窗口的增大而减小,具有较高的稳定性与鲁棒性。  相似文献   

8.
针对数据发布中的隐私泄露问题, 分析了对数据集进行匿名保护需要满足的条件, 提出了一种基于信息增益比例约束的数据匿名方法。该方法以凝聚层次聚类为基本原理, 将数据集中的元组划分到若干个等价群中, 然后概化每个等价群中的元组使其具有相同的准标志符值。在聚类过程中, 以信息损失最小、信息增益比例最大的约束条件来控制聚类的合并, 可以使数据匿名结果保持良好的可用性和安全性。对匿名结果的质量评估问题进行了深入的探讨, 提出了匿名结果可用性和安全性的量化计算方法。在UCI知识库提供的Adult数据集上的一系列实验结果表明, 该方法是有效可行的。  相似文献   

9.
迁移学习在一定程度上减轻了目标域的数据稀疏问题对泛化能力的影响,然而泛化能力的提高仍然受到负迁移等问题的影响。为了解决负迁移问题,该文提出使用源域结构的文本语料的信息粒化方法,用区间信息粒表示出源域数据集的结构对数据集中统计量的影响。然后提出区间二型模糊隐马尔可夫模型(Interval Type-2 fuzzy Hidden Markov Model, IHMM) 以处理区间信息粒。给出了IHMM的构建方法和去模糊化方法。在文本的词性标注任务中进行了多个实验,可以证实利用源域结构信息的粒迁移学习方法避免了负迁移,提高了模型的泛化能力。  相似文献   

10.
数据的安全性和可用性是敏感数据发布与共享环境中面临的主要问题.近期提出了一种利用有损连接保证敏感数据发布的安全性的方法-Anatomy,其优点在于发布的数据中保留了原始数据的准确值.但是用Anatomy方法处理数据会损失大量数据的关联信息和分布信息,降低数据的可用性.针对这种问题提出了维护数据高可用性的ClassAnatomy方法,它继承了Anatomy方法的安全性和准确性等优点,并通过对数据空间进行分类划分的方法保留原始数据的关联及分布信息.给出了两种ClassAnatomy算法,包括基于信息论的自顶向下的单维分类划分算法(TDA)和基于高维网格的自底向上的多维覆盖分类划分算法(BUA).实验结果表明,ClassAnatomy方法在保证数据安全性的基础上能够极大地减少数据的信息损失,从而提高数据的可用性.  相似文献   

11.
We present the results of a usability evaluation of a locally developed hypermedia information system aiming at conservation biologists and wildlife managers in Namibia. Developer and end user come from different ethnic backgrounds, as is common to software development in Namibia and many developing countries. To overcome both the cultural and the authoritarian gap between usability evaluator and user, the evaluation was held as a workshop with usability evaluators who shared the target users’ ethnic and social backgrounds. Different data collection methods were used and results as well as specific incidences recorded. Results suggest that it is difficult for Namibian computer users to evaluate functionality independently from content. Users displayed evidence of a passive search strategy and an expectation that structure is provided rather than self generated. The comparison of data collection methods suggests that questionnaires are inappropriate in Namibia because they do not elicit a truthful response from participants who tend to provide answers they think are “expected”. The paper concludes that usability goals and methods have to be determined and defined within the target users’ cultural context.  相似文献   

12.
13.
Model-based software development is carried out as a well defined process. Depending on the applied approach, different phases can be distinguished, e.g. requirements specification, design, prototyping, implementation and usability evaluation. During this iterative process manifold artifacts are developed and modified, including, e.g. models, source code and usability evaluation data. CASE tools support the development stages well, but lack a seamless integration of usability evaluation methods. We aim at bridging the gap between development and usability evaluation, through enabling the cooperative use of artifacts with the particular tools. As a result of integration usability experts save time to prepare an evaluation and evaluation results can be easier incorporated back into the development process. We show exemplary our work on enhancing the Eclipse framework to support usability evaluation for task model-based software development.  相似文献   

14.
针对类簇交叉且分布不均衡的复杂数据,依据可信粒度准则,提出一种结合区间二型模糊粗糙C均值(IT2FRCM)聚类与混合度量的两阶段信息粒化算法。在第一阶段,利用IT2FRCM算法对原始数据进行聚类分析,得到初始的信息粒。在第二阶段,综合考虑数据空间分布、样本规模及粒子性质等因素,采用混合度量方法设计均衡证据合理性和语义独特性的粒化函数,并基于可信粒度准则优化由覆盖度和独特性组成的复合函数,求解最佳粒子边界。在人工数据集和UCI数据集上的实验结果表明,该算法能够有效提高不平衡数据的信息粒化质量和粒子代表性,在归类正确数、粒子特性等指标上均取得了理想表现。  相似文献   

15.
Based on a stream of research, this study identified four components of the e-learning courseware usability: fundamental, appearance, information presentation, and communication. The communication component was considered an expanded component of the e-learning courseware usability. A theoretical model was built and three hypotheses were developed to examine whether the communication component as an expanded component of the e-learning courseware usability significantly and positively contributed to the three components of the e-learning courseware usability (fundamental, appearance, and information presentation). An instrument was developed and administered to subjects taking various e-learning courses. The collected data were analyzed using a variance-based Structural Equation Modeling (SEM) package that uses Partial Least Square (PLS). Analyses of the results indicated a strong validated model supporting all stated hypotheses.  相似文献   

16.
基于观点挖掘的产品可用性建模与评价   总被引:3,自引:0,他引:3       下载免费PDF全文
易力  王丽亚 《计算机工程》2012,38(16):270-274
提出基于观点挖掘的产品可用性建模与评价方法。以Web上的产品评论为数据,利用观点挖掘的方法从非结构化评论中抽取结构化数据,选取与可用性相关的产品特征,使用因子分析法提取影响产品可用性的公共因子,建立产品可用性模型。对产品可用性进行评价,结果表明,该方法可以有效地从用户角度发掘产品可用性中存在的缺陷,为产品设计提供依据。  相似文献   

17.
半监督降维(Semi\|Supervised Dimensionality Reduction,SSDR)框架下,基于成对约束提出一种半监督降维算法SCSSDR。利用成对样本进行构图,在保持局部结构的同时顾及数据的全局结构。通过最优化目标函数,使得同类样本更加紧凑\,异类样本更加离散。采用UCI数据集对算法进行定量分析,发现该方法优于PCA及传统流形学习算法,进一步的UCI数据集和高光谱数据集分类实验表明:该方法适合于进行分类目的特征提取。  相似文献   

18.
《Knowledge》2007,20(4):419-425
Many classification algorithms require that training examples contain only discrete values. In order to use these algorithms when some attributes have continuous numeric values, the numeric attributes must be converted into discrete ones. This paper describes a new way of discretizing numeric values using information theory. Our method is context-sensitive in the sense that it takes into account the value of the target attribute. The amount of information each interval gives to the target attribute is measured using Hellinger divergence, and the interval boundaries are decided so that each interval contains as equal amount of information as possible. In order to compare our discretization method with some current discretization methods, several popular classification data sets are selected for discretization. We use naive Bayesian classifier and C4.5 as classification tools to compare the accuracy of our discretization method with that of other methods.  相似文献   

19.
本文采用用户测试法和用户调查法对CBID(Case Based Industrial Design)系统进行评估分析。通过对可用性评估结果的分析,进一步为CBID系统与ICAID系统可用性对比研究提供根据。  相似文献   

20.
徐伟  冷静 《计算机应用与软件》2021,38(3):314-318,333
为了降低网络入侵检测系统的虚警率,提出一种混合式网络入侵检测方法,将人工蜂群(ABC)算法用于特征提取,XGBoost算法用于特征分类和评价。选择和定义不同的场景和攻击类型,并设计混合式网络拓扑;对预处理后的数据,采用ABC算法进行特征提取,利用XGBoost算法将需要评价的特征进行分类;得到特征的最优子集,利用这些特征完成网络异常检测。在多个公开数据集上的实验结果表明,该混合方法在准确度和检测率方面优于其他方法,且其时间复杂度和空间复杂度较低,表现出较高的检测效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号