首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
在面向名义型属性的聚类问题中,各个属性权重的选择对于聚类效果至关重要。在实践中,常常赋予各个属性相同的权重或者根据领域专家的意见赋予经验权重。在缺乏领域专家意见时,充分考虑各个属性对聚类结果贡献程度的不同,引入监督学习的思想对部分标记数据进行训练,设计遗传算法寻找各个属性更优的权重,以期获得更好的聚类效果。  相似文献   

2.
文章着重研究采用空间曲面构造三维地质属性体模型。首先,将空间曲面映射到三维体数据中,使用这些具有地质涵义的曲面对体数据进行空间划分,并在体数据中建立三维地质属性体模型。该文提出了一种适合于大数据量的标量体数据表示结构,并基于该结构,提出了一种基于种子填充算法的三维空间区域划分算法。  相似文献   

3.
数值属性的离散化对于事务的构成有重要的意义,本文给出了数值属性的总体描述,并针对网络性能数据的离散化设计了多种方法。  相似文献   

4.
等线体和圆头体曲线轮廓字形的自动生成系统   总被引:1,自引:0,他引:1  
本文叙述了等线体和圆头体汉字曲线轮序字形的自动生成系统该系统从黑体汉字曲线轮廊字形中自动抽取骨架单线体, 结合等线体和圆头体汉字构字规则自动生成多种笔划粗细规格的等线体和圆头体汉字曲线轮屏字库, 具有成本低、速度快、质量好等优点。  相似文献   

5.
近年来,遗憾最小化查询作为多准则决策的重要工具之一,逐渐成为数据查询的研究热点.遗憾最小化查询中,通过与用户进行交互,不断地学习用户的偏好,可以有效帮助降低查询的遗憾率.然而,已有的研究仅针对具有数值型属性的数据定义遗憾率并据此进行遗憾最小化查询,当面对包含非数值型属性的数据时,这些方法不再适用.本文提出的遗憾率定义针对包含非数值型属性的数据,并给出新的交互式遗憾最小化查询问题的定义.在此基础上,采用“支配”的概念提出用于预处理的skyline删减算法,利用偏好矩阵帮助学习用户偏好,并提出用于解决交互式遗憾最小化的算法MECR_QS.最后,实验结果表明MECR_QS算法能有效处理包含非数值型属性的交互式遗憾最小化查询.  相似文献   

6.
反轮廓查询在制定有效的市场决策方面具有重要的作用,随着数据流特征和不确定性的表现日益明显,不确定数据流上概率反轮廓查询已经成为一个新的研究课题.为了高效解决不确定数据流上概率反轮廓查询问题,首先,通过对实际应用需求进行分析,提出了不确定数据流上概率反轮廓查询的定义,并根据相关概念,提出了不确定数据流上概率反轮廓查询的索引模型;其次,通过对不确定数据流上概率反轮廓的性质进行深入分析,提出了一种新颖高效的基于R-tree的不确定数据流上概率反轮廓查询算法RT2RS,该算法运用了高效的剪枝策略,避免了大量的无效运算;最后,通过大量的仿真实验对RT2RS性能进行了验证.实验结果表明,RT2RS是解决不确定数据流上概率反轮廓查询的有效方法,大大减少了不确定数据流上概率反轮廓查询的运行时间,能够满足实际应用需求.  相似文献   

7.
数值型和分类型混合数据的模糊K-Prototypes聚类算法   总被引:15,自引:0,他引:15  
陈宁  陈安  周龙骧 《软件学报》2001,12(8):1107-1119
由于数据库经常同时包含数值型和分类型的属性,因此研究能够处理混合型数据的聚类算法无疑是很重要的.讨论了混合型数据的聚类问题,提出了一种模糊K-prototypes算法.该算法融合了K-means和K-modes对数值型和分类型数据的处理方法,能够处理混合类型的数据.模糊技术体现聚类的边界特征,更适合处理含有噪声和缺失数据的数据库.实验结果显示,模糊算法比相应的确定算法得到的结果准确度高.  相似文献   

8.
轮廓操作和轮廓计算在数据库通信、决策支持、数据可视化以及空间数据库等应用中具有重要作用。该文分析现有方法,指出其在渐进处理、查询高效性和用户后期筛选方便性等方面存在的问题,提出基于轮廓点支配定理、应用空间几何原理的3D动态割面轮廓查询算法。通过实例分析和实验证明其可行性、高效性和准确性。  相似文献   

9.
戚湧  陈俊  李千目 《计算机科学》2016,43(2):163-168
可扩展的访问控制标记语言(eXtensible Access Control Markup Language,XACML)逐渐成为访问控制的标准之一。为了确保系统可用性,访问控制系统需要高效的XACML策略评估引擎。针对这一问题,从XACML策略本身潜在的不足出发,从冗余消除和属性数值化两个方面对XACML策略进行了优化。冗余消除在不影响策略评估结果的前提下去除策略库中的冗余规则,同时结合规则压缩消除规则间的冗余状态。属性数值化将文本的XACML策略属性转化为数值属性,使评估引擎匹配使用高效的数值匹配方式而不是低效的字符串匹配方式,同时使用Hash表结构存储数值属性与文本属性的映射关系有利于策略维护。仿真实验结果表明,提出的策略优化方法的性能与原始Sun XACML 相比有较大提升。  相似文献   

10.
考虑关于范围查询的动态轮廓计算问题。基于范围查询将数据集中的点利用点与查询之间的距离特性进行转换,转换后的点可视为是一个以查询点为坐标原点的新空间中的数据点,利用现有的轮廓计算方法对转换后的数据集进行计算得到轮廓集合,以此为基础设计相应的算法来实现针对范围查询的动态轮廓的计算。利用网格索引和Z曲线结构设计多个剪枝策略降低算法的空间与时间复杂度。实验结果验证了算法的有效性以及在时间和空间上的效率。  相似文献   

11.
在现实世界中经常遇到混合数值属性和分类属性的数据, k-prototypes是聚类该类型数据的主要算法之一。针对现有混合属性聚类算法的不足,提出一种基于分布式质心和新差异测度的改进的 k-prototypes 算法。在新算法中,首先引入分布式质心来表示簇中的分类属性的簇中心,然后结合均值和分布式质心来表示混合属性的簇中心,并提出一种新的差异测度来计算数据对象与簇中心的距离,新差异测度考虑了不同属性在聚类过程中的重要性。在三个真实数据集上的仿真实验表明,与传统的聚类算法相比,本文算法的聚类精度要优于传统的聚类算法,从而验证了本文算法的有效性。  相似文献   

12.
在介绍了现有数值型属性分裂方法的基础上,引出了纯区间的概念,提出了一种基于纯区间归约的数值型属性分裂方法。该方法将属性值域用等宽直方图的方法划分为多个区间,对纯区间和非纯区间分别处理。理论分析和实验结果表明该方法在保证了分裂精度的同时,减小了搜索空间。  相似文献   

13.
陆勤 《计算机工程》2004,30(3):92-93
在分类和预测任务中,包含大量不同取值的名词型属性使那些要求数值型输入的回归算法难以使用。该文提出一种基于经验贝叶斯统计方法的预处理方法,对这一类名词型属性进行变换,使之能用于预测建模。首先介绍了变换的统计学原理,然后给出了实现方法。分析表明,此方法简单易行,缩放性较好,而且在处理缺失数据时具有明显的优势。  相似文献   

14.
余泽 《计算机系统应用》2014,23(12):125-130
混合属性聚类是近年来的研究热点,对于混合属性数据的聚类算法要求处理好数值属性以及分类属性,而现存许多算法没有很好得平衡两种属性,以至于得不到令人满意的聚类结果.针对混合属性,在此提出一种基于交集的聚类融合算法,算法单独用基于相对密度的算法处理数值属性,基于信息熵的算法处理分类属性,然后通过基于交集的融合算法融合两个聚类成员,最终得到聚类结果.算法在UCI数据集Zoo上进行验证,与现存k-prototypes与EM算法进行了比较,在聚类的正确率上都优于k-prototypes与EM算法,还讨论了融合算法中交集元素比的取值对算法结果的影响.  相似文献   

15.
语义数据的内积计算是个难点问题,制约了有关语义数据的核分类方法的研究和发展。针对此问题,通过给出一种语义数据相异性度量测度的新定义、计算语义数据内积的简化方法、研究核方法和支撑向量机中的核函数的本质,提出了一种语义数据的核分类方法,并把方法向语义数据、连续属性构成的异构数据的分类问题进行了拓展。仿真实验表明方法具有一定的抗离群数据干扰能力,方法的总体性能优于文献中已有的其他方法。通过在异常检测领域中的应用研究,说明方法能高效地实现不平衡数据的分类,具有一定的实用价值。  相似文献   

16.
中文信息检索系统中的查询语句包含中文字、拼音、英文等多种形式,而有些查询语句过长,不利于纠错处理。现有的查询纠错方法不能很好的解决中文检索系统中的混合语言与中文长查询的问题。为了解决上述两个问题,该文提出了一种支持混合语言的并行纠错方法。该方法通过对混合语言统一编码,建立统一编码语言模型和异构字符词典树,并根据语言特点制定相应的编辑规则对查询词语进行统一处理,其中,针对中文长查询,提出双向并行的纠错模型。为了并行处理查询语句,我们在字符词典树和语言模型的基础上提出了逆向字符词典树和逆向语言模型的概念。模型中使用的训练语料库是从用户查询日志、网页点击日志、网页链接信息等文件中提取的高质量文本。实验表明,与单向查询纠错相比,支持混合语言的并行纠错方法在准确率上提升了9%,召回率降低了3%,在速度上提升了40%左右。  相似文献   

17.
互k近邻MKnn算法是k-近邻算法的一种有效改进算法,但其对类属性数据通常采用属性值相同为0,不同为1的方法处理,从而在类属性数据较多的数据集上分类效率受到一定程度的抑制。针对MKnn对类属性数据处理方法的不足,对类属性数据的处理引进类别基尼系数的概念,对同类样本,用基尼系数统计某一类属性中不同值分布对这个类的贡献度作为此类属性的权重,并以此作为估算不同样本之间的相似性对MKnn进行优化,扩宽MKnn的使用面。实验结果验证了该方法的有效性。  相似文献   

18.
面向多敏感属性医疗数据发布的隐私保护技术   总被引:1,自引:0,他引:1  
金华  刘善成  鞠时光 《计算机科学》2011,38(12):171-177
针对目前多敏感属性医疗数据发布问题,在分析多维桶分组技术的基础上,继承了有损连接对隐私数据进行保护的思想,提出了一种基于相同敏感属性集的L-覆盖性聚类分组方法。首先计算每条记录的相同敏感属性集,然后按照聚类的思想将满足L-覆盖性的记录进行分组。同时给出了L-覆盖性聚类分组的实现算法(LCCU)。实际数据集上的大量实验结果表明,该方法可以有效防止隐私泄露,同时增强数据的可用性。  相似文献   

19.
攻击图、攻击树与攻击网是网络安全测试和评估的重要建模方法,但这些方法在建模过程中存在无序性以及在攻击选择上缺乏针对性。为克服以上不足,本文以目标网络中存在的漏洞为树的叶节点,以漏洞利用攻击方式为节点之间的边,对各个节点主机的安全属性分别进行攻击建模,并在综合分析攻击的成果效率和时间效率的基础上,提出了效率优先的主机安全属性漏洞树建模方法。最后,通过举例分析证实了所提方法的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号