排序方式: 共有113条查询结果,搜索用时 281 毫秒
61.
朴素贝叶斯分类中的隐私保护方法研究 总被引:3,自引:0,他引:3
数据挖掘中的隐私保护方法,试图在不精确访问原始数据详细信息的条件下,挖掘出准确的模式与规则.围绕着分类挖掘中的隐私保护问题展开研究,给出了一种基于数据处理和特征重构的朴素贝叶斯分类中的隐私保护方法.分别提出了一种针对枚举类型的隐私数据处理与特征重构方法--扩展的部分隐藏随机化回答(Extended Randomized Response with Partial Hiding,ERRPH)方法和一种针对数值类型的隐私数据处理与特征重构方法--转换的随机化回答(Transforming Randomized Response,TRR)方法,并在此基础上实现了一个完整的隐私保护的朴素贝叶斯分类算法.理论分析和实验结果均表明:朴素贝叶斯分类中基于ERRPH和TRR的隐私保护方法具有很好的隐私性、准确性、高效性和适用性. 相似文献
62.
一种基于语义内积空间模型的文本聚类算法 总被引:17,自引:0,他引:17
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好. 相似文献
63.
繁琐复杂的分析过程是OLAP面临的主要问题.当前的解决方法由于与具体的分析任务相关而存在不足.在数据立方体中引入虚拟视图机制解决了这个问题.一个虚拟视图是从原始实事表衍生出来的逻辑数据集合.给出了数据立方体上的虚拟视图的定义,并分3种情况讨论了虚拟视图的实现策略,以及对应的OLAP分析方法.实验证明了所述方法的可行性和有效性. 相似文献
64.
基于FP-Tree的反向频繁项集挖掘 总被引:2,自引:0,他引:2
在拓展现有反向频繁挖掘问题定义,探索反向频繁项集的3个具体应用后,提出了一种基于FP-tree的反向频繁项集挖掘方法.该方法首先采用分治思想,将目标约束划分为若干子约束,每步求解一个子线性约束问题,经过若干步迭代后找到一个满足整个给定约束的目标FP-tree;然后根据目标FP-tree生成一个仅含频繁项的临时事务数据库TempD;最后通过向TempD中撒入非频繁项得到目标数据集.理论分析和实验表明该方法是正确的、高效的,且与现有方法仅能输出1个目标数据集相比,该方法能够输出较多的目标数据集. 相似文献
65.
基于ER模型和受限汉语的数据库中文查询语言研究 总被引:7,自引:0,他引:7
本文给出了一个基于ER模型和受限汉语的关系数据库汉语查询语言的计算模型RChiQL(Restrictive Chinese Query Language)及其实现方案,系统模拟人脑对语言处理的并行机制,将中文查询句的处理分为四个相互依存、相互交织的步骤(词的切分,文法分析,语义分析和SQL转换) ,其中引入了一种新的文法GWERSC(Grammar with ER Semantic Characteristics ,ER语义特征文法) ,其内嵌的ER模型语义既有利于语法分析又简化了语义分析,取得了很好的效果。 相似文献
66.
面向XPath执行的XML数据流压缩方法 总被引:13,自引:0,他引:13
由于XML(extensible markup language)本身是自描述的,所以XML数据流中存在大量冗余的结构信息.如何压缩XML数据流,使得在减少网络传输代价的同时有效支持压缩数据流上的查询处理,成为一个新的研究领域.目前已有的XML数据压缩技术,都需要扫描数据多遍,或者不支持数据流之上的实时查询处理.提出了一种XML数据流的压缩技术XSC(XML stream compression),实时完成XML数据流的压缩和解压缩,XSC动态构建XML元素事件序列字典并输出相关索引,能够根据XML数据流所遵从的DTD,产生XML元素事件序列图,在压缩扫描之前,产生更加合理的结构序列编码.压缩的XML数据流能够直接解压缩用于XPath的执行.实验表明,在XML数据流环境中,XSC在数据压缩率和压缩时间上要优于传统算法.同时,在压缩数据之上查询的执行代价是可以接受的. 相似文献
67.
68.
69.
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据挖掘的结果,还进一步希望此结果能与OLAP分析过程紧密结合,让数据挖掘的结果为OLAP数据分析过程服务.在这种情况下,数据挖掘的结果本身并非最终结果,如何将挖掘结果进一步用于OLAP分析才是用户关注的焦点.以聚类挖掘为例,提出了一种在OLAP分析中保持聚类挖掘结果的方法. 相似文献
70.
XML数据的查询技术 总被引:31,自引:1,他引:31
XML规范已成为当前网络应用(包括数字图书馆、Web服务以及电子商务)中事实上的数据表达、交换的标准.针对XML数据的查询在当前XML数据管理研究中占有重要的地位,也是当前XML数据处理研究领域的热点方向,相关的研究文献有很多.根据查询模式描述的不同,将当前XML查询技术归入两大类:XML Query方式和XML IR方式.后者又进而可分以为3个子类:XML IR/keyword方式、XML IR/fragment和XML IR/query方式,并从中挑选出3个研究者关注的问题进行了简述,它们是:Twig查询模式的处理、SLCA(smallest lowest common ancestor)节点的获取以及对所获取的XML片段相似性的度量.以方便普通用户使用为准则探讨了相关XML查询技术的优、缺点,将如下4个问题作为需要进一步关注的研究内容:结构化关键字查询及相应的结构相似性度量方法,如何消除XML Query查询处理模式(包含XML IR/query)和XML IR/keyword查询处理模式间数据冗余的问题,XML Query查询方式的理论探讨及其实现以及针对特定应用的XML数据的有效管理. 相似文献